見出し画像

arXiv search: September 01, 2024

Estimating Text Similarity based on Semantic Concept Embeddings
目的:
この論文では、セマンティックネットワーク(SN)を利用して、テキスト間の意味的類似性を推定する新しい方法を提案しています。具体的には、Wikipediaから自動生成されたSNを用いてセマンティック概念埋め込み(CE)を抽出し、それを利用してテキスト間の意味的類似性を評価する手法が検討されています。
使用データ・情報:
この研究では、Wikipediaから抽出されたデータを使用しています。具体的には、Wocadiパーサーを用いてWikipediaのテキストを解析し、セマンティックネットワーク(SN)を生成しています。これにより、テキストから概念を抽出し、これらの概念を基にセマンティック概念埋め込み(CE)を作成しています。
新規性・解決できた問題:
この研究の新規性は、セマンティックネットワークを用いてテキスト間の意味的類似性を評価する点にあります。従来の単語埋め込み手法と異なり、セマンティックネットワークを用いることで、テキストにおける概念の関連性をより深く把握し、意味的な類似性をより正確に推定することが可能になりました。また、Word Sense Disambiguation(語義曖昧性解消)を行うことで、テキストの意味をより正確に把握し、類似性の推定に利用しています。
未解決問題:
今後の課題としては、内部ノードをランダムウォークから排除する現在の方法では、概念の全体像を捉えきれていない可能性があるため、内部ノードをどのように扱うかが問題とされています。また、Wocadiパーサーはライセンスが必要であり、自由に利用できないため、他の自由に利用可能なセマンティックロールラベリングパーサーを用いた場合の結果も検証する必要があります。さらに、語義曖昧性解消の精度向上や、特定の名詞に対して効果的なアプローチを開発することも重要です。
url:
https://arxiv.org/abs/2401.04422
title:
Estimating Text Similarity based on Semantic Concept Embeddings
authors:
Tim vor der Brück, Marc Pouly
date:
9 January, 2024;

Interpretable Neural Temporal Point Processes for Modelling Electronic Health Records
目的:
この研究論文では、電子健康記録(EHR)をモデル化するための解釈可能なニューラル時間点プロセス(NTPP)フレームワーク「inf2vec」を提案しています。このフレームワークは、イベントの影響を直接パラメータ化し、エンドツーエンドで学習することが可能です。目的は、イベント予測とタイプ間の影響学習の精度を向上させることです。
使用したデータや情報:
この研究では、公開されている3つの電子健康記録データセットを使用しています。これらはSynEHR1、SynEHR2、およびMIMICのデータセットで、それぞれが多数のイベントシーケンスを含んでいます。これらのデータを用いて、イベントの時間的なパターンとタイプ間の影響をモデル化しています。
新規性や解決できた問題:
従来のNTPPモデルが透明性に欠け、意思決定の説明が困難であった問題に対処しています。inf2vecは、Hawkesプロセスとword2vecに触発され、イベントタイプごとにベクトル空間を作成し、イベントの影響を明示的にモデル化します。これにより、イベントタイプ間の依存関係を直接解釈可能な形で学習することができ、解釈可能性とモデルの透明性を大幅に向上させています。
未解決の問題:
このフレームワークでは、まだ解決されていない問題として、異なるイベントタイプが持つ影響の強度や持続時間の違いをより詳細にモデル化する方法が挙げられます。また、異なる医療環境や患者群に対するモデルの適用性や一般化能力をさらに向上させる必要があります。将来的には、より多様なデータセットを用いた検証や、他のモデルとの統合を試みることが考えられます。
url:
https://arxiv.org/abs/2404.08007
title:
Interpretable Neural Temporal Point Processes for Modelling Electronic Health Records
authors:
Bingqing Liu
date:
9 April, 2024;

CARE-SD: Classifier-based analysis for recognizing and eliminating stigmatizing and doubt marker labels in electronic health records: model development and validation
目的:
この論文は、集中治療室(ICU)の患者の電子健康記録(EHR)におけるスティグマや偏見を示す言語の存在を検出し評価するために、自然言語処理(NLP)の先進的な方法を適用することを目的としています。特に、プロバイダーの偏見やスティグマのバイアスを検出し、これらが医療の質を低下させる可能性があるため、介入と評価を促進することを目指しています。
使用データ・情報:
この研究では、ボストンにあるベス・イスラエル・ディーコネス医療センターのICUに2001年から2012年までに入院した40,000人以上の患者の包括的な、匿名化されたEHRデータベースであるMIMIC-IIIデータセットを使用しています。このデータセットには、1.2百万以上の臨床プロバイダーノートが含まれており、さまざまな条件や年齢層の患者情報が含まれています。
新規性と解決した問題:
この研究の新規性は、大規模な匿名化されたEHRデータベースに対して、疑問符マーカーやスティグマラベリングなどの言語的バイアスを自動的に分類するシステムを開発した点にあります。これにより、以前は質的な評価に限定されていたスティグマや偏見の識別を、より迅速かつ広範囲に行うことが可能になりました。また、この研究は、特定の患者群(特に慢性疾患を持つ患者や、黒人や女性などの特定の人々)に対する言語的偏見がどのように表現されるかを明らかにしました。
未解決問題:
今後の課題としては、この研究で開発されたモデルや分類システムをさらに改良し、さまざまな医療環境や異なる患者群に適用可能なものにすることが挙げられます。また、検出されたバイアスやスティグマに対する効果的な介入方法を開発し、それを実際の医療現場でのトレーニングやポリシー改善に結びつけることも重要です。さらに、この研究では主にテキストデータの分析に焦点を当てていますが、非言語的なコミュニケーションやその他の形式のデータも分析に含めることで、より包括的な偏見とスティグマの識別が可能になるでしょう。
url:
https://arxiv.org/abs/2405.05204
title:
CARE-SD: Classifier-based analysis for recognizing and eliminating stigmatizing and doubt marker labels in electronic health records: model development and validation
authors:
Drew Walker, Annie Thorne, Sudeshna Das, Jennifer Love, Hannah LF Cooper, Melvin Livingston III, Abeed Sarker
date:
8 May, 2024;

An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models
目的:
この研究の主な目的は、多言語モデルのトークナイザーを拡張し、特定の言語(ドイツ語、ロシア語、ヒンディー語、タミル語)に対して効果的に適用できるようにすることです。また、異なる初期化方法がRoBERTaとLLaMA2モデルの性能にどのように影響するかを評価し、継続的な事前学習や微調整がモデル性能に与える影響を解析することも目的としています。
使用されたデータや情報:
この研究では、SANGRAHAとOSCARから提供される言語データセットを使用しました。また、各言語に対して300万文の一言語データセットと2百万トークンの一言語コーパスを使用し、さらに二言語辞書データセットも取り入れました。これにより、多言語トークナイザーの訓練と、言語間の語彙の拡張が行われました。
新規性や解決できた問題:
この研究の新規性は、多言語モデルの語彙を効果的に拡張し、新しい言語に対しても高い性能を維持する方法を提案した点にあります。特に、Constrained Word2Vecを用いた初期化方法が、他の初期化方法と比較して優れた性能を示したことが重要です。これにより、言語モデルの拡張と適用の可能性が拡がりました。
未解決問題:
今後の課題としては、さらに多くの言語に対してモデルを拡張すること、そして特に低リソース言語に対する効果的な適用方法を見つけることが挙げられます。また、異なる言語間での性能差を最小限に抑えつつ、全ての言語で均一な性能を達成するための研究が必要です。
url:
https://arxiv.org/abs/2407.05841
title:
An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models
authors:
Nandini Mundra, Aditya Nanda Kishore, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Mitesh M. Khapra
date:
8 July, 2024;

Machine Learning for Tangible Effects: Natural Language Processing for Uncovering the Illicit Massage Industry & Computer Vision for Tactile Sensing
目的:
この論文の主な目的は、言語処理技術(NLP)を用いて、特定のユーザーグループ(mongersと呼ばれる人々)の懸念や感情を分析することです。特に、彼らがどのようにして自分たちの行動がロマンチックまたは性的な関係にどのような影響を与えるか、また法執行機関に対する懸念を持っているかを探ることが目的です。
使用したデータや情報:
この研究では、ワードエンベディングとUMAP(Uniform Manifold Approximation and Projection)を用いた分析が行われています。特定のキーワードとネガティブな感情を持つ言葉(「不安」や「心配」など)との間のコサイン類似度を計算し、これらの言葉がどの程度似ているかを数値的に評価しています。
新規性や解決できた問題:
この研究の新規性は、NLP技術を用いて特定のユーザーグループの心理的な懸念を探る点にあります。従来の直接的なアンケートやインタビューに頼る方法とは異なり、ユーザーが自然言語で表現したテキストデータから直接、感情や懸念を読み取ることができます。また、UMAPを用いることで高次元のデータを視覚的に解釈しやすい形に変換し、データのパターンをより明確にすることができた点もこの研究の貢献です。
未解決問題:
未解決問題としては、この研究の結果の解釈の難しさが挙げられます。コサイン距離の大きなギャップが解釈を困難にしており、これをどのように扱うかが今後の課題です。また、公共政策の観点から見た場合、個々の行動に対する社会的圧力の最終的な結果がどうなるか、さらに詳細な分析が必要です。
url:
https://arxiv.org/abs/2309.03470
title:
Machine Learning for Tangible Effects: Natural Language Processing for Uncovering the Illicit Massage Industry & Computer Vision for Tactile Sensing
authors:
Rui Ouyang
date:
7 September, 2023;

Classifying spam emails using agglomerative hierarchical clustering and a topic-based approach
目的:
この研究の主な目的は、スパムメールを分類するために、凝集型階層的クラスタリングとトピックベースのアプローチを利用することです。特に、異なる言語(英語とスペイン語)のデータセットにおいて、各スパムメールのクラスを正確に識別し、その効果を評価することに焦点を当てています。
使用データ:
研究では、約15,000件のスパムメールが含まれるデータセット(SPEMC-15K-EおよびSPEMC-15K-S)を使用しています。これらのメールは11の異なるクラスに分類され、各クラスごとに頻繁に使用される単語のワードクラウドが示されています。また、TF-IDF、BOW、word2vec、BERTなど複数のテキスト処理技術が用いられています。
新規性と解決した問題:
この研究の新規性は、複数のテキスト処理技術を組み合わせてスパムメールを分類する点にあります。特に、BERTやword2vecなどの深層学習モデルを利用した点が挙げられます。これにより、特定のクラス(例えば、'Academic Media'や'Extortion Hacking')で高い分類精度を達成しています。また、スパムメールの言語や内容の多様性に対応するためのアプローチを提案しており、言語間でのパフォーマンスの違いにも対応しています。
未解決問題:
クラスの不均衡やデータセットのサイズがパフォーマンスに影響を与えているため、これらの問題に対処するためのさらなる研究が必要です。また、いくつかのクラスでは依然として混同が生じており、特に'Service'や'Other'のような広範なトピックを含むクラスの精度向上が今後の課題です。さらに、異なる言語間での一貫したパフォーマンスを達成するための手法の改善も求められています。
url:
https://arxiv.org/abs/2402.05296
title:
Classifying spam emails using agglomerative hierarchical clustering and a topic-based approach
authors:
F. Janez-Martino, R. Alaiz-Rodriguez, V. Gonzalez-Castro, E. Fidalgo, E. Alegre
date:
7 February, 2024;

Values That Are Explicitly Present in Fairy Tales: Comparing Samples from German, Italian and Portuguese Traditions
目的:
この研究の目的は、昔話のテキストにおける価値観の明示的な表現を特定し、それらがどのように社会的行動や生活様式を反映しているかを解析することです。具体的には、シュワルツのモデルとヨーロッパの核心価値に基づいて、価値を象徴するトークンを選定し、これらのトークンがテキスト中でどのように使用されているかを自動的に識別し、注釈を付けることにより、価値観の表現を追跡します。
データや情報:
この研究では、シュワルツの価値理論に基づいて選ばれた価値に関連するトークンのリストを使用しています。これには、2つの辞書研究から選ばれた単語が含まれており、それぞれの単語はシュワルツが特定した10の価値のいずれかと関連付けられています。さらに、昔話のコーパスを用いて、これらのトークンの出現をステミングという技術を使って識別し、同義語トークンのグループにラベルを付けています。
新規性や解決できた問題:
この研究の新規性は、歴史的なテキストにおける価値観の表現を体系的に解析する方法論を提供する点にあります。特に、ステミングを用いてテキストから価値関連のトークンを自動的に識別し、それらを価値のグループに関連付けるアプローチは、テキスト内の価値観の明示的な表現を効果的に捉えることができました。また、異なる文化間での価値観の表現を比較することで、文化的な違いを明らかにすることも可能になりました。
未解決問題:
将来的には、より多様な文化や時代の昔話を分析対象に含めることで、さらに広範な文化的背景における価値観の変遷や特徴を明らかにする必要があります。また、自動注釈プロセスの精度を向上させるために、論文を考慮したより高度な自然言語処理技術の適用も検討されるべきです。さらに、価値観の否定的な表現や、隠れた価値観の検出など、テキスト分析の範囲を広げることも重要な課題です。
url:
https://arxiv.org/abs/2402.08318
title:
Values That Are Explicitly Present in Fairy Tales: Comparing Samples from German, Italian and Portuguese Traditions
authors:
Alba Morollon Diaz-Faes, Carla Sofia Ribeiro Murteira, Martin Ruskov
date:
6 May, 2024;

Evaluating Embeddings for One-Shot Classification of Doctor-AI Consultations
目的:
この研究の目的は、医療提供者と患者間の効果的なコミュニケーションを向上させることにあります。具体的には、医療相談における医師が書いたテキストとAIが生成したテキストを、最先端の埋め込み技術とワンショット分類システムを用いて分類する方法を調査しています。
使用データ・情報:
この研究では、医療相談から生成されたテキストデータを使用しています。具体的には、医師の応答、ChatGPTによる応答、そして医師の応答の言い換えられたものを含むMEDICデータセットを利用しています。これらのテキストは、ワンショット分類のためのモデルトレーニングに使用され、さまざまな埋め込み技術のパフォーマンスを評価するために用いられました。
新規性・解決した問題:
この研究の新規性は、医療相談における医師書きテキストとAI生成テキストの区別を可能にする強力なテキスト表現を開発することにあります。これにより、医療記録の管理やオンライン医療アドバイスの正当性評価など、テキスト分類の正確性が医療プロセス全体に及ぼす影響を理解することができます。また、複数のワンショット分類モデルを開発し、広範なトレーニングデータを必要としないという点でも新規性があります。
未解決問題:
将来の研究では、さらに多様な医療専門分野におけるAIの活用可能性を拡大し、マルチモーダルな大言語モデルの開発を進める必要があります。これにより、患者の健康をより包括的に理解することが可能になります。また、LLMの効果的な実装と倫理的な展開についても慎重に考慮する必要があります。
url:
https://arxiv.org/abs/2402.04442
title:
Evaluating Embeddings for One-Shot Classification of Doctor-AI Consultations
authors:
Olumide Ebenezer Ojo, Olaronke Oluwayemisi Adebanji, Alexander Gelbukh, Hiram Calvo, Anna Feldman
date:
6 February, 2024;

RESTORE: Graph Embedding Assessment Through Reconstruction
目的:
この論文の主な目的は、グラフ埋め込み(Graph Embedding、GE)の評価フレームワークであるRESTOREを提案し、異なるGEアルゴリズムが生成する埋め込みの品質を評価することです。具体的には、ノードごとに生成された埋め込みが元のグラフのトポロジカル構造とセマンティック情報をどの程度保持しているかを、グラフの再構築を通じて評価します。
使用されたデータや情報:
この研究では、CommonSense Knowledge Graph(CSKG)を用いて、1ホップ、2ホップ、3ホップのサブグラフを生成し、それぞれのホップ数に対応するGEをトレーニングしました。また、ワードセマンティックおよびアナロジーテストには、Google Analogy, MSR Analogy, MEN, MTruk, WS353, RG65, RW, SimLex999などのデータセットが使用されています。
新規性や解決できた問題:
RESTOREフレームワークは、異なるGEアルゴリズムがグラフのトポロジカル構造とセマンティック情報をどの程度保持しているかを詳細に分析することができる点で新規性があります。特に、異なるホップ数でのグラフ再構築の精度を評価し、トポロジカル構造とセマンティック情報の両方を考慮した包括的な評価を提供します。これにより、GEアルゴリズムがどの程度効果的にグラフの情報を保持しているかを定量的に理解することが可能になりました。
未解決問題:
この研究では、GEが全てのトポロジカル構造やセマンティック情報を完全には保持していないことが明らかになり、さらなる改善の余地が残されています。また、異なるGEアルゴリズムが任意の関数や構造的等価性をどの程度近似できるかについても、今後さらに研究が必要です。これらの課題に対処するために、新しいGEアルゴリズムの開発や既存アルゴリズムの改良が求められています。
url:
https://arxiv.org/abs/2308.14659
title:
RESTORE: Graph Embedding Assessment Through Reconstruction
authors:
Hong Yung Yip, Chidaksh Ravuru, Neelabha Banerjee, Shashwat Jha, Amit Sheth, Aman Chadha, Amitava Das
date:
5 September, 2023;

An Exploration of Multimodality and Data Augmentation for Dementia Classification
目的:
この研究の主な目的は、アルツハイマー病などの認知症の検出を改善するための多様な機械学習モデルとデータ拡張技術の開発と評価です。具体的には、テキスト、音声、タイムスタンプを組み合わせたマルチモーダルなアプローチを利用して、認知症の検出精度を高めることを目指しています。
使用データ・情報:
この研究では、'Pitt Cookie Theft'フォルダーからのデータセットを使用しました。このデータセットには、刺激写真を見たときの参加者の反応が含まれており、各単語にタイムスタンプが付与されているため、マルチモーダルモデルでの使用が可能でした。音声データはWav2vecで前処理され、テキストデータはGensimのWord2vecを用いてトークン化されました。
新規性・解決した問題:
この研究の新規性は、テキスト、音声、タイムスタンプのデータを組み合わせることにより、認知症検出の精度を向上させる点にあります。特に、データ拡張技術を用いてデータセットを増強し、モデルの一般化能力を高めるアプローチが取り入れられました。また、異なるモーダルを組み合わせたことで、単一のモーダルでは捉えられない特徴を活用することが可能となりました。
未解決問題:
将来的には、さらに多様なデータソースを組み合わせることで、モデルの精度をさらに向上させる必要があります。また、異なるタイプの認知症や初期段階の認知症の検出にも対応できるよう、モデルの適用範囲を広げることが挑戦として残されています。さらに、実際の臨床環境でのモデルの有効性を評価するための研究も必要です。
url:
https://arxiv.org/abs/2311.02819
title:
An Exploration of Multimodality and Data Augmentation for Dementia Classification
authors:
Kaiying Lin, Peter Washington
date:
5 November, 2023;

Explaining the Contributing Factors for Vulnerability Detection in Machine Learning
目的:
この研究の主な目的は、ソフトウェアリポジトリからの脆弱性の採掘と、機械学習技術を用いたソフトウェア脆弱性の自動検出の精度に影響を与える様々な要因を調査することです。具体的には、異なる特徴抽出手法と機械学習モデルが脆弱性検出の精度にどのように影響するかを分析し、実世界のプロジェクトにおけるこれらの技術の有効性を評価することを目的としています。
データや情報:
この研究では、OWASP、Juliet、Androidといった異なるドメインからのデータセットを使用しています。これらのデータセットには、脆弱性のラベル付けされたソースコードファイルが含まれており、これを用いて機械学習モデルの訓練と評価が行われています。また、NLPに基づく特徴抽出や、バグ・オブ・ワーズ、Word2Vec、FastTextなどの異なる埋め込み技術が試されています。
新規性や解決できた問題:
この研究の新規性は、複数の機械学習モデルと特徴抽出手法を組み合わせたことにあります。特に、ランダムフォレストモデル、サポートベクターマシン、残差ニューラルネットワークを用いて、バグ・オブ・ワーズ埋め込みによる特徴抽出が脆弱性検出の精度を向上させることが示されました。これにより、様々なプロジェクトにおいて一貫して検出精度を約4%向上させることができるという結果が得られています。
未解決問題:
脆弱性のシグネチャーがプロジェクト間での移行性に限界があることが挙げられます。特に、異なるドメイン間での学習モデルの有効性には大きな差が存在し、これが学習性能の劣化につながっています。今後の研究方向としては、ソフトウェア開発運用プロセスにトランスファーラーニング技術を統合し、ソースドメインからのトレーニングをターゲットドメインの入力で拡張する方法が有望だとされています。
url:
https://arxiv.org/abs/2406.03577
title:
Explaining the Contributing Factors for Vulnerability Detection in Machine Learning
authors:
Esma Mouine, Yan Liu, Lu Xiao, Rick Kazman, Xiao Wang
date:
5 June, 2024;

Corporate Bankruptcy Prediction with Domain-Adapted BERT
目的:
この研究の主な目的は、企業の破産予測を行うために、BERTベースの分析を企業開示データに適用し、その有効性を検証することです。特に、管理討論分析(MD&A)セクションの論文特有の感情を抽出し、それを用いて12ヶ月以内に発生する破産を予測することを目指しています。
データや情報:
この研究では、1995年から2020年までの企業の開示資料からランダムにサンプルされた1,200件の文書を使用しています。これらの文書から、589,858件の個別の文を抽出し、それぞれの文に対してBERTベースの分類器を適用して擬似ラベルを生成しました。信頼できるサンプルのみをフィルタリングしてモデルの学習に使用し、最終的には38,703件の信頼できる文を得ました。
新規性や解決できた問題:
従来の辞書ベースのアプローチでは捉えられない、文書の隠れた感情やニュアンスをBERTモデルを用いて抽出し、分析することが新規性です。また、自己エントロピーを用いた信頼性の高いサンプルの選定方法は、ノイズの多い擬似ラベルがモデルの性能を損なうことを防ぎます。このアプローチにより、企業の破産予測の精度を向上させることができました。
未解決問題:
BERTモデルのさらなるチューニングや、より多様なデータセットを用いた検証が必要です。また、感情分析の精度をさらに高めるための手法の開発も求められます。さらに、他の言語や文化における企業の開示情報に対するBERTベースの分析の適用可能性も検討する必要があります。
url:
https://arxiv.org/abs/2312.03194
title:
Corporate Bankruptcy Prediction with Domain-Adapted BERT
authors:
Alex Kim, Sangwon Yoon
date:
5 December, 2023;

A comparison of correspondence analysis with PMI-based word embedding methods
目的:
この研究の主な目的は、単語埋め込みの手法としての対応分析(CA)と確率的正の相互情報(PMI)ベースの手法の理論的および実証的な比較を行い、特にROOT-CAとROOTROOT-CAという新しい変種を探求することにあります。これにより、自然言語処理(NLP)タスクのパフォーマンスを向上させる可能性があります。
使用データ・情報:
この研究では、Text8コーパスとBritish National Corpus(BNC)が使用されています。これらのコーパスは、単語の共起情報を基にして単語埋め込みを生成するためのデータとして利用されており、単語の出現頻度に基づいてフィルタリングされた単語セットが用いられています。また、単語の類似性を評価するために、WordSim353、MEN、Mechanical Turk、Rare、SimLex-999といった単語類似性データセットが使用されています。
新規性・解決した問題:
この研究の新規性は、従来のCAとPMIベースの手法の比較に加えて、ROOT-CAおよびROOTROOT-CAという新しい変種を導入し、それらが従来の手法よりも優れた結果を提供することを実証した点にあります。特に、ROOT-CAは元の要素の0.5乗を使用し、ROOTROOT-CAは0.25乗を使用することで、単語埋め込みの性能を向上させることができました。
未解決問題:
将来の研究では、異なる乗数(例えば0.25や0.5以外の値)を用いた一般的なパワー変換の効果をさらに検討することが挙げられます。これにより、さまざまなタイプのテキストデータや言語において、最適な変換パラメータを特定するためのガイドラインを提供することが期待されます。また、他の自然言語処理タスクへの応用可能性についても検討する必要があります。
url:
https://arxiv.org/abs/2405.20895
title:
A comparison of correspondence analysis with PMI-based word embedding methods
authors:
Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden
date:
31 May, 2024;

Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code
目的:
この研究は、コンパイルされたバイナリ内の脆弱性を検出するために、自然言語処理(NLP)の埋め込み技術を使用してLLVMコードからのセマンティクスを学習することを目的としています。具体的には、word2vec、BERT、およびRoBERTaを使用して埋め込みを生成し、それらを訓練されたLSTMニューラルネットワークに供給して、コンパイルされたバイナリの脆弱性を検出します。
使用データ・情報:
この研究では、Julietデータセットからの約118,000のLLVM関数を使用しています。このデータセットは、脆弱性のあるコードと無害なコードの両方を含むC/C++コードサンプルで構成されており、これを利用してNLP埋め込みモデルを訓練しました。さらに、この研究では、脆弱性のある関数と無害な関数を区別するために、特定の関数名やキーワードを使用してデータセットを整理しています。
新規性および解決した問題:
この研究の新規性は、LLVMコードを使用して複数の双方向変換器モデル(BERTおよびRoBERTa)とword2vecモデルを比較し、どの埋め込み技術がコンパイルされたバイナリの脆弱性を特定するタスクで最も効果的であるかを評価することにあります。この比較分析は、以前の研究ではあまり焦点を当てられていなかったため、どのNLPモデルが最適かについての洞察を提供します。結果として、word2vecのCBOWモデルが他のモデルよりも優れた検出性能を示しました。
未解決問題:
この研究では、データサンプルの数が限られている(例えば、118K)ため、双方向変換器ベースのモデルを使用する際の有効性に制限があることが示唆されました。将来的には、より多くのデータサンプルを使用した研究や、異なるアーキテクチャや最適化オプションを持つバイナリに対するモデルの適用性を評価することが課題として残されています。また、異なるタイプの脆弱性に対するモデルの効果をさらに評価する必要があります。
url:
https://arxiv.org/abs/2405.20611
title:
Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code
authors:
Gary A. McCully, John D. Hastings, Shengjie Xu, Adam Fortier
date:
30 May, 2024;

Individual Text Corpora Predict Openness, Interests, Knowledge and Level of Education
目的:
この研究は、個々のGoogle検索履歴を使用して、ビッグファイブ調査からの経験への開放性を予測することを目的としています。基本的な仮説は「あなたが読むものがあなた自身を表す」というもので、Googleで検索されたホームページと個性を定義するラベルワードの類似性をテストすることにより、個性の次元の一つである開放性を予測しようと試みています。
使用したデータや情報:
この研究では、214人の参加者から収集されたGoogle検索履歴を使用しています。これらの検索履歴から個々のテキストコーパス(IC)を生成し、各参加者の読書資料の意味構造を定義するためにword2vecモデルを用いました。また、ビッグファイブ調査から抽出された形容詞、動詞、名詞を含むラベルワードとの類似性を計算し、これを予測特徴として使用しました。
新規性や解決できた問題:
この研究の新規性は、個々のGoogle検索履歴という、従来のサーベイに基づく心理診断の補完または代替となる可能性のあるデータソースを用いて、個人の開放性を予測する点にあります。選択されたニューラルモデルはテストサンプルでの開放性の分散の35%を説明し、知的興味、人文科学の知識、教育レベルの予測においても安定した予測を提供するアンサンブルモデルを使用しました。
未解決問題:
将来の課題としては、一般化可能な予測を得るために必要なサンプルサイズを見積もる学習曲線分析を実施することが挙げられます。また、この研究では主に開放性に焦点を当てていましたが、他のビッグファイブの性格特性についても同様のアプローチを用いて予測することが今後の研究で考えられます。
url:
https://arxiv.org/abs/2404.00165
title:
Individual Text Corpora Predict Openness, Interests, Knowledge and Level of Education
authors:
Markus J. Hofmann, Markus T. Jansen, Christoph Wigbels, Benny Briesemeister, Arthur M. Jacobs
date:
29 March, 2024;

Vulgar Remarks Detection in Chittagonian Dialect of Bangla
目的:
この研究は、ソーシャルメディア上での不適切な発言やハラスメントを自動的に検出するためのシステムを提案し、評価することを目的としています。特に、資源が少ない言語であるチッタゴン方言のバングラ語に焦点を当て、機械学習(ML)と深層学習(DL)アルゴリズムを使用して、不適切な発言の検出を行います。
使用したデータや情報:
この研究では、Facebookプラットフォームから公開されているアカウントを通じて収集された2,500件のコメントや投稿をデータセットとして使用しました。これらのデータは手動で粗野なコメントとそうでないコメントに注釈を付け、CohenのKappa統計を使用して注釈の一貫性を検証しました。
新規性や解決できた問題:
チッタゴン方言という資源が少ない言語に焦点を当てた点と、ソーシャルメディア上での粗野な発言を自動的に検出するためのMLとDLのアプローチを組み合わせた点が新規性です。また、この研究は、異なる特徴抽出技術と複数の機械学習及び深層学習アルゴリズムを試し、その中でロジスティック回帰が高い精度を示しました。
未解決問題:
本研究では、ニューラルネットワークアルゴリズムがより多くのデータを必要とするという問題が指摘されています。将来的には、より大規模なデータセットの収集や、言語モデルの改善を通じて、精度の向上を図る必要があります。また、異なるソーシャルメディアプラットフォームにおける検出システムの適用可能性についても検討する必要があります。
url:
https://arxiv.org/abs/2308.15448
title:
Vulgar Remarks Detection in Chittagonian Dialect of Bangla
authors:
Tanjim Mahmud, Michal Ptaszynski, Fumito Masui
date:
29 August, 2023;

When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM
目的:
この研究の主な目的は、コードとコメントの間の一貫性を検出するための実用的な手法を提案することです。具体的には、Gensim word2vecエンコーディングとシンプルなリカレントニューラルネットワーク、LSTMモデル、そしてCodeBERTを用いた手法を開発し、コードとコメントの間の一貫性を自動的に評価することを目指しています。
使用したデータや情報:
この研究では、コードとコメントのペアが含まれるデータセットを使用しました。これは、コードの各スニペットとそれに対応するコメントが手動で選択され、評価されたものです。このデータセットは、以前の研究からのもので、特にCorazza et al.によってキュレートされたものです。
新規性や解決できた問題:
この研究の新規性は、単純な機械学習アーキテクチャを使用しながらも、大規模な事前訓練済みモデルと比較して優れた予測性能を達成した点にあります。特に、Gensim word2vecとシンプルなリカレントニューラルネットワークまたはLSTMを組み合わせた手法は、CodeBERTといった事前訓練済みモデルと比較しても、優れた結果を示しました。これにより、大規模なモデルに依存しなくても、効率的かつ効果的な機械学習手法の可能性を示唆しています。
未解決問題:
将来の研究課題としては、異なるプログラミング言語に対するアプローチの一般化可能性を検証することが挙げられます。この研究ではJava言語のみが評価に用いられましたが、他の言語に対しても同様のアプローチが有効かどうかは未解決の問題です。また、より大規模なデータセットを用いた評価や、異なる種類のコード構造に対する手法の適用性も、今後の研究で検討すべき課題です。
url:
https://arxiv.org/abs/2405.16272
title:
When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM
authors:
Michael Dubem Igbomezie, Phuong T. Nguyen, Davide Di Ruscio
date:
28 May, 2024;

MUGC: Machine Generated versus User Generated Content Detection
目的:
この研究は、詩、抄録、エッセイの3つの異なるデータセットを用いて、人間生成と機械生成のテキストを区別するための伝統的な機械学習アルゴリズムの比較評価を行うことを目的としています。また、機械生成コンテンツの進歩した能力とそれに関連する課題を理解することも目的です。
使用データ・情報:
この研究では、詩、医学ジャーナルの抄録、エッセイの3つのデータセットが使用されました。これらのデータは、人間と大規模言語モデル(LLM)によって生成されたもので、読みやすさ、バイアス、道徳、感情などの言語特性を比較分析するために利用されています。
新規性・解決した問題:
この研究は、大規模言語モデルによって生成されたコンテンツの特有の感情的および言語的特徴を探求し、人間と機械生成のテキスト間の顕著な違いを明らかにしました。伝統的な機械学習アルゴリズムを用いて高い精度で機械生成データを識別することができ、特にWord2Vecのような深い単語表現を用いることで、微妙な意味の違いを捉えることが可能であることが示されました。
未解決問題:
将来の研究では、特定のドメインに特化した大規模言語モデルによって生成されたデータの検出がより困難である可能性があります。単に単語分布に依存するだけではなく、より効果的な識別を行うためには、さらなる探求が必要です。また、検出モデルの一般化能力の限界や、異なる出版形式に対する横断的な精度の問題も解決すべき課題として残されています。
url:
https://arxiv.org/abs/2403.19725
title:
MUGC: Machine Generated versus User Generated Content Detection
authors:
Yaqi Xie, Anjali Rawal, Yujing Cen, Dixuan Zhao, Sunil K Narang, Shanu Sushmita
date:
28 March, 2024;

You shall know a piece by the company it keeps. Chess plays as a data for word2vec models
目的:
この論文では、言語学的な分析手法を非言語データ、具体的にはチェスのプレイに適用し、一種のテキストとしてチェスゲームの記録を解析することを試みています。このアプローチにより、チェスの動きの特徴を明らかにし、分布意味論の観点からチェスのデータを解析することが目的です。
使用したデータや情報:
論文では、約540万件のチェスゲーム(約8億4000万の動き)のデータセットを使用しています。これらのデータは主に国際レベルの高いチェスゲームから収集されたものです。このデータを基に、動きベースと位置ベースの2種類のモデルを訓練しました。
新規性や解決できた問題:
この研究の新規性は、チェスのゲーム記録を自然言語のテキストと同様に扱い、word2vecモデルを適用することにあります。これにより、チェスの各動きがその論文に基づいてどのように意味を持つかをベクトル空間内で表現することが可能になりました。また、チェスの動きと自然言語の単語が似たような論文依存の意味論を持つことを示しました。
未解決問題:
論文では、このベクトルモデルがチェスエンジンやプレイヤーが最適な動きを選択するのに直接役立つかは不明であるとしています。したがって、ベクトルモデルが実際のゲーム戦略や勝利にどのように貢献できるかを明らかにするためのさらなる研究が必要です。また、チェスのデータを用いた他の機械学習手法との比較も今後の課題として挙げられます。
url:
https://arxiv.org/abs/2407.19600
title:
You shall know a piece by the company it keeps. Chess plays as a data for word2vec models
authors:
Boris Orekhov
date:
28 July, 2024;

Effect of dimensionality change on the bias of word embeddings
目的:
この研究の主な目的は、単語埋め込みの次元性が変化することによって生じるバイアスの影響を調査することです。単語埋め込みの次元性は、さまざまなタスクや実装で異なりますが、これがどのようにバイアスに影響を与えるかは十分に研究されていませんでした。
使用したデータや情報:
この研究では、英語のWikipediaコーパスを使用しました。データのクリーニングと抽出にはWikiExtractorという公開ツールを用いています。また、バイアス測定にはWEAT(Word Embedding Association Test)とC-WEAT(Contextual Word Embedding Association Test)を使用しています。
新規性や解決できた問題:
この研究の新規性は、単語埋め込みの次元性が変わることによって生じるバイアスの変動を体系的に分析し、その影響を定量的に評価した点にあります。以前は、次元性の変化が単語埋め込みのバイアスに与える影響はあまり注目されていませんでしたが、この研究によって、バイアスが有意に変化することが明らかになりました。
未解決問題:
今後の課題として、この研究では次元性の変化がNLPの下流タスク、例えば感情検出や自動質問応答システムにどのような影響を与えるかをさらに調査する必要があります。また、異なるタイプのバイアスがどのように次元性の変化に応じて変動するかの理解を深めることも重要です。
url:
https://arxiv.org/abs/2312.17292
title:
Effect of dimensionality change on the bias of word embeddings
authors:
Rohit Raj Rai, Amit Awekar
date:
28 December, 2023;

From cart to truck: meaning shift through words in English in the last two centuries
目的:
この研究の目的は、異なる時代を通じて同じ概念がどのように異なる言葉で表現されてきたかを調査することです。具体的には、1800年から2000年までの英語データを用いて、概念の表現が時間とともにどのように変化していったかを探ることを目指しています。
使用データ:
この研究では、1800年から2000年までの各10年ごとの英語の単語埋め込みを使用しています。これらの埋め込みは、Google Books N-Gramコーパスを用いて訓練されたもので、word2vecのスキップグラムモデルを使用しています。
新規性と解決問題:
この研究の新規性は、オノマシオロジーの視点から時間を通じて言葉がどのように変化していくかを探る点にあります。特に、異なる時代における同一の概念に最も近い言葉を特定することで、言語の変化だけでなく社会的な変化との関連を明らかにしました。例えば、1800年代の「cart」が2000年代の「truck」と最も類似した埋め込みを持っていたことなどが示されています。
未解決問題:
この研究では単一のデータセットに基づいており、特定の言語(英語)に限定されています。また、使用された単語埋め込みは、科学文献に偏りがあるとされるGoogle Books N-Gramコーパスに基づいているため、言語全体を代表するものではない可能性があります。将来的には、より多様なデータセットや言語を用いた研究が求められます。さらに、より細かい時間間隔での研究を行い、意味の変化をより詳細に捉えることも重要です。
url:
https://arxiv.org/abs/2408.16209
title:
From cart to truck: meaning shift through words in English in the last two centuries
authors:
Esteban Rodríguez Betancourt, Edgar Casasola Murillo
date:
28 August, 2024;

Learning Word Embedding with Better Distance Weighting and Window Size Scheduling
目的:
この論文では、Word2Vecモデルの改善方法について説明しています。具体的には、テキストモデリングにおける単語間の距離情報を考慮することで、セマンティックなモデリング能力と予測トレーニングプロセスの両方を向上させることを目指しています。
使用されたデータや情報:
この研究では、Word2Vecモデルの様々なバリエーションを試し、それぞれのモデルがどのように単語の分散表現を学習するかを検証しています。具体的には、CBOWとSkip-gramモデルの性能を比較し、距離関連の重み付けや動的ウィンドウサイズ戦略を用いた改良版モデルの効果を検証しています。
新規性や解決できた問題:
この研究の新規性は、Word2Vecモデルにおいて単語間の距離情報を無視する問題に対処することにあります。従来のモデルでは、すべてのコンテキスト単語を同等に扱うため、テキストの意味抽出が不十分であった問題を、距離に応じた重み付けを導入することで改善しています。これにより、単語間の近接性や関連性が高いほど予測に寄与する度合いが高まり、より精度の高いセマンティックモデリングが可能になりました。
未解決問題:
将来的には、さらに多様なテキストデータに対するモデルの適用性を高めるために、より複雑な論文や多様な言語に対応できるようなアプローチの開発が求められます。また、モデルの解釈可能性を向上させるための研究も必要です。これには、モデルがどのように単語間の関係を学習しているのかを明確にするための追加的な分析が含まれるかもしれません。
url:
https://arxiv.org/abs/2404.14631
title:
Learning Word Embedding with Better Distance Weighting and Window Size Scheduling
authors:
Chaohao Yang, Chris Ding
date:
26 July, 2024;

The Word2vec Graph Model for Author Attribution and Genre Detection in Literary Analysis
目的:
この研究の主な目的は、文書の文学分析のための新しい特徴セットを提案することです。具体的には、Word2vecグラフを基にした特徴抽出技術を使用して、作者の属性やジャンルの識別を行うことが目標です。
使用したデータや情報:
この研究では、豊富なベンガル文学コーパス、英語のフィクションライティングデータセット、ベンガル語の新聞社説データセットを含む3つの異なるデータセットを使用しています。これらのデータセットを用いて、Word2vecグラフアプローチとそのバリエーションを、単語ユニグラム、スタイロメトリー、文字n-gram、多言語BERTの特徴セットと比較しました。
新規性や解決できた問題:
この研究の新規性は、Word2vecグラフを基にした特徴抽出技術を提案し、それを用いて文書の構造的な違いを新しい視点から視覚化することです。提案された特徴セットは、TF-IDFやスタイロメトリーの特徴セットよりも優れた性能を発揮し、特徴の数が著しく少ないにもかかわらず、文書のm-BERT表現とほぼ同等の性能を達成しました。このアプローチは、特に短編小説などのテキスト量やユニークな単語が限られるジャンルで有効であることが示されました。
未解決問題:
研究の制限として、より単純な分類とクラスタリングスキームを採用しているため、実験の範囲を拡大し、Word2vecグラフから特徴を抽出するためにグラフ埋め込みを利用することが今後の課題として挙げられています。また、他の文学的タスクを実行することも将来の研究で取り組むべき課題です。
url:
https://arxiv.org/abs/2310.16972
title:
The Word2vec Graph Model for Author Attribution and Genre Detection in Literary Analysis
authors:
Nafis Irtiza Tripto, Mohammed Eunus Ali
date:
25 October, 2023;

A comparative analysis of embedding models for patent similarity
目的:
この研究の主な目的は、特許のテキストベースの類似性を評価するための異なる種類の特許固有の事前学習済み埋め込みモデルのパフォーマンスを比較することです。具体的には、静的ワード埋め込み(word2vecやdoc2vecなど)と論文的ワード埋め込み(transformerベースのモデルなど)を比較し、さらにSentence Transformers(SBERT)の異なるトレーニングフェーズのパフォーマンスも比較しています。
使用されたデータや情報:
この研究では、特許の干渉という現象を利用しています。これは、異なる特許申請の2つ以上の特許請求項が特許審査官によって重複していることが証明される現象です。これらの干渉事例を最大の類似性の代理として使用し、異なる埋め込みモデルのパフォーマンスを評価するための基準として扱っています。
新規性や解決できた問題:
この研究の新規性は、特許の論文的な埋め込み表現を用いた類似性計算の精度向上にあります。特に、ドメイン適応されたSentence Transformerアーキテクチャを提案し、それによって現状の最先端技術を上回るパフォーマンスを達成しています。また、大規模な静的モデルが論文的モデルと比較して依然として競合するパフォーマンスを示す場合があることを示し、論文的埋め込みの優位性が実際のアーキテクチャよりもトレーニングフェーズの方法に関連している可能性があることを指摘しています。
未解決問題:
将来の研究では、特許データに特化したより効果的なトレーニング手法やモデルの改良が必要です。また、特許文書の特有の技術的、法的ジャーゴンに対応するためのより洗練されたNLP技術の開発も求められています。さらに、特許の類似性を計算する際に、特許クラス間の技術的な違いや、引用関係の解釈におけるバイアスなど、より正確な類似性評価のための新たな基準の確立も重要な課題です。
url:
https://arxiv.org/abs/2403.16630
title:
A comparative analysis of embedding models for patent similarity
authors:
Grazia Sveva Ascione, Valerio Sterzi
date:
25 March, 2024;

Understanding IoT Domain Names: Analysis and Classification Using Machine Learning
目的:
この論文では、IoT M2M(Machine to Machine)のドメイン名を他のドメイン名と区別するための機械学習モデルの訓練と評価を行うことが目的です。特に、様々なドメイン名リスト(Cisco、Trancoなど)とIoT M2M Namesを比較し、これらを分類するためのモデルの性能を測定しています。
使用データ・情報:
論文では、IoT M2M Namesを含む複数のドメイン名リストを使用しています。これには、Cisco、Tranco、その他のリストから選ばれたドメイン名が含まれています。また、これらのドメイン名はWord2vecを用いて実数値ベクトルに変換され、機械学習モデルの訓練に使用されました。使用された機械学習モデルには、ナイーブベイズ、ロジスティック回帰、K近傍法、サポートベクターマシン、決定木、ランダムフォレストがあります。
新規性・解決問題:
この研究の新規性は、IoT M2Mのドメイン名とその他のドメイン名を区別するために、複数の機械学習技術を組み合わせて使用した点にあります。特に、Word2vecを使用してドメイン名をベクトル化し、これを機械学習モデルの入力として使用する方法は、ドメイン名の分類において高い精度と再現率を達成するのに寄与しました。また、異なるドメインリストを使用してモデルの汎用性と堅牢性を評価した点も重要です。
未解決問題:
将来的には、より大規模で多様なIoTデバイスを含むテストベッドを使用すること、またはM2M以外のIoTデバイスを含む研究の範囲を広げることが挙げられます。これにより、ドメイン名リストをさらに拡張し、多様な状況におけるモデルの性能を評価することが可能になるでしょう。また、新たな機械学習技術やディープラーニングアプローチを取り入れることで、さらに精度の高い分類が期待できます。
url:
https://arxiv.org/abs/2404.15068
title:
Understanding IoT Domain Names: Analysis and Classification Using Machine Learning
authors:
Ibrahim Ayoub, Martine S. Lenders, Benoît Ampeau, Sandoche Balakrichenan, Kinda Khawam, Thomas C. Schmidt, Matthias Wählisch
date:
23 April, 2024;

SEDAC: A CVAE-Based Data Augmentation Method for Security Bug Report Identification
目的:
与えられた論文は、セキュリティ関連のバグレポート(SBR)を識別することを目的としています。この識別作業を通じて、セキュリティに関連するバグを予測し、プロジェクトが脅威や攻撃から守るための迅速な対応を可能にすることが目指されています。
使用したデータや情報:
この研究では、ChromiumプロジェクトとApacheプロジェクト(Wicket, Ambari, Camel, Derby)から収集された合計45,940件のバグレポートが使用されました。これらのバグレポートは、セキュリティ関連のものとそうでないものに分類されています。
新規性や解決できた問題:
本研究の新規性は、データ不均衡の問題と長距離の論文情報を無視する問題に対処するために、distilBERTと条件付き変分オートエンコーダ(CV AE)を用いた点にあります。これにより、セキュリティバグレポートのベクトルを生成し、データセットのバランスをとる新しい方法を提案しました。これにより、SBRの識別精度が向上し、g-measure, pd, pfの各指標において従来の方法よりも高い性能を示しました。
未解決問題:
未解決の問題としては、さらに多様なデータセットに対するモデルの適用性や、他の機械学習アルゴリズムとの比較、実際の運用環境での効果の検証などが挙げられます。また、生成されたバグレポートの質の向上や、他の種類のバグレポートに対する適用の拡張も今後の課題です。
url:
https://arxiv.org/abs/2401.12060
title:
SEDAC: A CVAE-Based Data Augmentation Method for Security Bug Report Identification
authors:
Y. Liao, T. Zhang
date:
22 January, 2024;

An Efficient Consolidation of Word Embedding and Deep Learning Techniques for Classifying Anticancer Peptides: FastText+BiLSTM
目的:
この研究の主な目的は、抗がんペプチド(ACP)を分類するための効率的なモデルを開発することです。具体的には、ワード埋め込み技術とディープラーニングモデルを組み合わせて、ACPの精度高い予測モデルを構築することを目指しています。
使用したデータや情報:
この研究では、ワード埋め込み技術としてWord2VecとFastTextが評価され、ペプチド配列の抽出に使用されました。その後、得られたワード埋め込みモデルの出力は、ディープラーニングアプローチであるCNN、LSTM、BiLSTMに供給されました。広く使用されているデータセット、ACP250とIndependentを用いて広範な実験が行われました。
新規性や解決できた問題:
この研究の新規性は、ワード埋め込み技術とディープラーニングモデルを組み合わせることにより、抗がんペプチドの分類精度を向上させた点にあります。特に、FastTextとBiLSTMを組み合わせたモデルは、ACP250データセットで92.50%、Independentデータセットで96.15%の精度を達成し、従来の研究を凌ぐ結果を示しました。
未解決問題:
今後の課題としては、さらに多様なペプチド配列データを取り入れてモデルの汎用性を高めること、また、異なるタイプのがんに対する抗がんペプチドの特定とその効果の検証が挙げられます。これにより、モデルの実用性をさらに向上させることが期待されます。
url:
https://arxiv.org/abs/2309.12058
title:
An Efficient Consolidation of Word Embedding and Deep Learning Techniques for Classifying Anticancer Peptides: FastText+BiLSTM
authors:
Onur Karakaya, Zeynep Hilal Kilimci
date:
21 September, 2023;

Utilizing Language Models for Tour Itinerary Recommendation
目的:
この論文では、観光地点(POI)を組み合わせた旅行計画を推薦する「ツアー行程推薦問題」に焦点を当てています。この問題は、オペレーションリサーチ(OR)と推薦システム(RS)の分野の課題を組み合わせており、特定のユーティリティ(例えば、POIの人気)を最大化する一方で、時間制限などの制約条件を満たす必要があります。また、RSの観点からは、ユーザーに関連するPOIのサブセットをフィルタリングまたはランキングし、それを行程として推薦する問題です。
データや情報:
この研究では、言語モデルを用いたPOIの表現学習と行程推薦のための技術、特にWord2VecやGloVeなどの単語埋め込み技術、そしてBERTなどのトランスフォーマーベースのモデルを使用しています。これらのモデルは、過去のPOI訪問シーケンスなどのデータを用いて訓練され、POIや行程のベクトル表現を学習します。
新規性や解決できた問題:
この研究の新規性は、NLPの技術を用いてツアー行程推薦という新しい応用分野に適用し、個々のPOIを単語として、POIの訪問シーケンスを文と見なす方法で表現学習を行う点にあります。これにより、ユーザーの興味や行程の制約に基づいてパーソナライズされた推薦が可能となり、ツアー計画の質を向上させることができました。
未解決問題:
将来的には、より多様な制約条件を考慮に入れたモデルの開発や、異なる文化や地域に特有のPOI特性を考慮した推薦システムの構築が挙げられます。また、実際のユーザーフィードバックを取り入れた動的な学習システムの開発も重要な課題です。
url:
https://arxiv.org/abs/2311.12355
title:
Utilizing Language Models for Tour Itinerary Recommendation
authors:
Ngai Lam Ho, Kwan Hui Lim
date:
21 November, 2023;

Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning
目的:
この論文では、テキストグラフ学習のための新しいプリトレーニングフレームワークであるNode Level Graph Autoencoder(NodeGAE)を提案しています。このフレームワークは、テキスト属性を持つノードのリッチな情報と複雑な関係性を効果的にキャプチャし、下流タスクの性能を向上させることを目的としています。
使用データ・情報:
この研究では、テキストを含むグラフ構造データを利用しています。具体的には、ノードがテキストシーケンスを属性として持ち、エッジがノード間の関係を表しています。また、ノード分類とリンク予測のためのデータセットとして、ogbn-arxivやogbn-productsなどが使用されています。
新規性・解決した問題:
NodeGAEは、自己教師あり学習の枠組みを用いてテキスト属性の再構成を行いながら、グラフの局所構造を学習することができる点に新規性があります。従来のテキストグラフ表現学習のアプローチと比較して、NodeGAEは単純なトレーニングプロセスを維持しつつ、異なるテキストグラフと下流タスクに対する一般化能力を示しています。この方法により、特にラベル付きデータが少ない状況でも優れたパフォーマンスを発揮することが可能になりました。
未解決問題:
この研究では、テキストグラフの特徴抽出と構造学習の統合に成功していますが、さらなる改善の余地があります。具体的には、異なる種類のグラフ構造やより大規模なデータセットに対する効果的なスケーラビリティの確保、さらに多様な下流タスクへの適用性の向上が挙げられます。また、モデルの解釈可能性や、トレーニングプロセスのさらなる最適化も重要な研究テーマです。
url:
https://arxiv.org/abs/2408.07091
title:
Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning
authors:
Wenbin Hu, Huihao Jing, Qi Hu, Haoran Li, Yangqiu Song
date:
21 August, 2024;

fakenewsbr: A Fake News Detection Platform for Brazilian Portuguese
目的:
この研究の主な目的は、ポルトガル語のニュース記事を用いて、真実と偽ニュースを自動的に識別するシステムの開発と評価です。また、データセットの構築とテキストの前処理方法の適用、そしてWord2Vecを用いた単語のベクトル表現の生成が含まれます。
使用されたデータや情報:
この研究では、2016年から2018年にかけてインターネットからウェブスクレイピングによって収集された7,200件のブラジルポルトガル語のテキストニュース記事を使用しました。これらは真実と偽のニュース記事が各3,600件ずつ含まれており、テーマや長さが似ているように手動で選択されています。また、より最近の情報と語彙を取り入れるために、偽ニュースサイトと信頼できるサイトから追加のデータ収集を行いました。
新規性や解決できた問題:
この研究の新規性は、ポルトガル語のニュース記事に特化した大規模なデータセットの構築と、自動偽ニュース検出のための具体的な手法の開発にあります。特に、Word2Vecを使用してテキストデータから単語の意味的なベクトルを生成し、これを利用してニュース記事の真偽を分類する点が挙げられます。これにより、言語に依存しない偽ニュース検出技術の進展に寄与しました。
未解決問題:
将来的には、より多様なソースからのデータを統合し、さらに精度の高い偽ニュース検出モデルの開発が必要です。また、異なる言語や文化的背景を持つニュースに対する適応性を高めるための研究も求められています。さらに、偽ニュースの拡散メカニズムや社会的影響についての深い理解も、今後の課題として残されています。
url:
https://arxiv.org/abs/2309.11052
title:
fakenewsbr: A Fake News Detection Platform for Brazilian Portuguese
authors:
Luiz Giordani, Gilsiley Darú, Rhenan Queiroz, Vitor Buzinaro, Davi Keglevich Neiva, Daniel Camilo Fuentes Guzmán, Marcos Jardel Henriques, Oilson Alberto Gonzatto Junior, Francisco Louzada
date:
20 September, 2023;

Distributional Semantics, Holism, and the Instability of Meaning
目的:
この論文では、分布意味論のアプローチを用いて、言葉の意味がどのように表現され、どのように変化するかを解析することを目的としています。特に、言語の使用がどのようにして言葉の意味に微妙な変化をもたらすか、そしてそれが全体の言語システムにどのように影響するかを検討しています。
データや情報:
論文では、特定の語彙(例えば「know」や「glass」)の使用頻度と、それが言語全体の意味構造に与える影響を分析するために、異なる作家(スタインとヘミングウェイ)のテキストを使用しています。これにより、語彙の使用がどのように言語の意味に影響を与えるかを示す具体的な例を提供しています。
新規性や解決できた問題:
この研究の新規性は、言葉の意味が単に静的なものではなく、使用される論文やその他の言葉との関係性によって動的に変化することを示している点にあります。また、分布意味論的アプローチが、言語の意味の安定性と変動をどのように捉えるかを示し、言語の意味が変化する過程を理解するための有効なモデルを提供しています。
未解決問題:
将来取り組むべき未解決問題としては、異なる言語や文化における言葉の意味の変化をより詳細に分析すること、また、多義語や異なる意味を持つ語彙が意味構造にどのように影響を与えるかを解明することが挙げられます。さらに、実際のコミュニケーションの場での言語使用が意味にどのように影響を与えるかを実証的に検証することも重要な課題です。
url:
https://arxiv.org/abs/2405.12084
title:
Distributional Semantics, Holism, and the Instability of Meaning
authors:
Jumbly Grindrod, J. D. Porter, Nat Hansen
date:
20 May, 2024;

Integrating Deep Learning and Synthetic Biology: A Co-Design Approach for Enhancing Gene Expression via N-terminal Coding Sequences
目的:
この研究の主な目的は、遺伝子配列の解析のためにNCS(非標準コーディングシーケンス)をセグメントに分割し、それらのセグメントを用いて遺伝子発現の強度を予測するモデルを構築することです。具体的には、k-最近傍エンコーディングを使用してNCSをセグメント化し、Word2Vecを用いてベクトル埋め込みを生成し、位置エンコーディングを加えることで、遺伝子発現を正確に予測するためのニューラルネットワークモデルを開発することを目指しています。
使用したデータや情報:
この研究では、遺伝子のNCSをk=3としてセグメント化し、各セグメントをWord2Vecモデルを用いてベクトル化しました。さらに、位置情報を反映させるために正弦波アルゴリズムを用いた位置エンコーディングを施しました。これらの処理を通じて、コンテキストに基づいたベクトル空間を生成し、そのベクトルを用いて遺伝子発現の強度を予測するモデルを構築しました。
新規性や解決できた問題:
本研究の新規性は、k-最近傍エンコーディングとWord2Vecを組み合わせることで、遺伝子配列のコンテキストを考慮したベクトル表現を生成し、さらに位置エンコーディングを加えることで、遺伝子配列の位置情報を保持する点にあります。これにより、遺伝子発現の予測精度が向上しました。また、このアプローチは、特定の生物種に依存しない一般化可能な方法としての可能性を示しています。
未解決問題:
今後の課題として、このモデルを異なる生物種に適用し、その適応性をさらに向上させることが挙げられます。特に、異なる生物種間での遺伝子発現メカニズムの違いを考慮に入れたモデルの最適化が必要です。また、より多様な遺伝子配列データを用いてモデルのロバスト性を評価し、実際の生物学的応用における有効性を検証することも重要です。
url:
https://arxiv.org/abs/2402.13297
title:
Integrating Deep Learning and Synthetic Biology: A Co-Design Approach for Enhancing Gene Expression via N-terminal Coding Sequences
authors:
Zhanglu Yan, Weiran Chu, Yuhua Sheng, Kaiwen Tang, Shida Wang, Yanfeng Liu, Weng-Fai Wong
date:
20 February, 2024;

Generating Packet-Level Header Traces Using GNN-powered GAN
目的:
この研究は、パケットレベルのヘッダトレースを生成するために、グラフニューラルネットワーク(GNN)と生成的敵対ネットワーク(GAN)を組み合わせた新しい方法を提案しています。特に、伝統的なワンホットエンコーディングによる次元の呪いを軽減し、モデルの訓練効果を向上させることを目的としています。
使用されたデータや情報:
この研究では、ネットワークトラフィックのパケットレベルでキャプチャされるメタデータ、具体的にはソースと宛先のインターネットプロトコル(IP)アドレス、ポート番号、プロトコルタイプなどのヘッダ情報を用いています。また、Word2Vecエンベディングを使用して、フィールド値間の意味的関係をより効果的に捉え、データの正確性と自然さを向上させています。
新規性や解決できた問題:
この研究の新規性は、GNNを用いてディープフィーチャーを抽出し、GANのディスクリミネータを強化することにあります。これにより、生成されたデータの現実性と多様性が向上し、伝統的なワンホットエンコーディングよりもWord2Vecエンベディングがデータ生成の効果を高めることが示されました。また、モデルの訓練効果とデータの自然さが向上しました。
未解決問題:
未解決の問題としては、現在のモデルが特定のデータセットの特徴に過剰適合している可能性があり、異なるデータセットへの適用性が限られることが挙げられます。また、GNNとGANの統合による計算複雑性の増大が、大規模データセットでのボトルネックになる可能性があります。将来的には、モデル構造を最適化して計算オーバーヘッドを減らし、より広範なデータセットでのモデルの一般化能力を検証することが求められます。
url:
https://arxiv.org/abs/2409.01265
title:
Generating Packet-Level Header Traces Using GNN-powered GAN
authors:
Zhen Xu
date:
2 September, 2024;

A Pure Transformer Pretraining Framework on Text-attributed Graphs
目的:
この論文の主な目的は、大規模なデータセットでの自己教師あり事前学習を通じて、広範な一般化知識を獲得し、特定のタスクやデータセットに適応させるための知識を転移することです。特に、グラフ領域における事前学習の進展に焦点を当て、テキスト属性グラフ(TAG)のノード特徴の品質向上と知識転移の改善を図っています。
使用したデータや情報:
論文では、大規模な引用ネットワークであるogbn-papers100Mを含む、様々なデータセットで自己教師あり事前学習を行いました。このデータセットは、多様な研究トピックからの論文を含む広範囲な引用グラフです。また、テキスト属性グラフ(TAG)のノード特徴を大言語モデル(LLM)を用いて統一し、ノード間のペアワイズ関係をモデリングするための事前学習フレームワークを提案しています。
新規性や解決した問題:
この研究の新規性は、グラフの構造に依存しない特徴中心の事前学習パースペクティブを導入し、テキストベースの表現を利用してグラフ間の転移性を向上させた点にあります。具体的には、ランダムウォークによって生成されたノードのコンテキストを用いて、標準トランスフォーマーを用いた特徴再構成を行うことで、ノード表現の統一モデルを学習します。これにより、構造の異なるグラフ間での負の転移リスクを軽減し、ノード分類とリンク予測のタスクで有効性が示されました。
未解決問題:
構造的異質性による負の転移のリスクをさらに軽減する方法、および異なるドメイン間での転移学習の効果をさらに向上させる方法についての研究が必要です。また、異なるタイプのグラフデータに対する事前学習モデルの適用性と汎用性を高めるための研究も求められています。これには、より多様なグラフ構造や特徴を持つデータセットを用いた実験が含まれます。
url:
https://arxiv.org/abs/2406.13873
title:
A Pure Transformer Pretraining Framework on Text-attributed Graphs
authors:
Yu Song, Haitao Mao, Jiachen Xiao, Jingzhe Liu, Zhikai Chen, Wei Jin, Carl Yang, Jiliang Tang, Hui Liu
date:
19 June, 2024;

MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions
目的:
この研究の主な目的は、ソーシャルメディア上のテキストから道徳的価値を自動的に評価することです。具体的には、Moral Foundations Theory(MFT)に基づいて、言語表現モデルであるMoralBERTを開発し、微調整して、社会的議論における道徳的感情を捉えることを目指しています。
データや情報:
この研究では、Twitter、Reddit、Facebookから取得した複数の異質なMFT人間注釈付きデータセットを用いています。これにより、ソーシャルメディアの観客の興味、コンテンツの提示スタイル、拡散パターンの点でテキストコンテンツの多様性が広がります。
新規性や解決できた問題:
MoralBERTは、従来のレキシコンベースのアプローチやWord2Vecの埋め込み、大規模言語モデル(GPT-4など)を使用したゼロショット分類と比較して、ドメイン内推論で平均F1スコアが11%から32%高い成績を達成しました。また、ドメイン逆敵訓練を通じて、集約訓練よりも優れたドメイン外予測を実現し、ゼロショット学習と比較して同等のパフォーマンスを達成しました。
未解決問題:
この研究では、特定の道徳的基盤(特に自由/抑圧)が異なるドメイン間でどのように異なるかを理解することが課題として挙げられています。また、MoralBERTがFacebookデータに対して低いパフォーマンスを示したことから、異なるソーシャルメディアプラットフォーム間での道徳的価値の表現の違いをさらに研究する必要があります。さらに、異なる文化や信念の背景を持つ人々が同じトピックに対してどのように異なる態度を持つかを理解するための研究も必要です。
url:
https://arxiv.org/abs/2403.07678
title:
MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions
authors:
Vjosa Preniqi, Iacopo Ghinassi, Julia Ive, Charalampos Saitis, Kyriaki Kalimeri
date:
19 July, 2024;

Area Modeling using Stay Information for Large-Scale Users and Analysis for Influence of COVID-19
目的:
この論文は、都市のエリアの使用方法を理解することを目的としています。具体的には、エリアの使用が時間とともにどのように変化するかを検出し、マーケティング戦略、都市計画、政府政策に対する貴重な情報を提供することを目指しています。また、COVID-19のようなパンデミックの影響を分析し、人々の行動の変化を捉えることも目的としています。
使用されたデータや情報:
この論文では、エリアの使用を特徴付けるために、人々の滞在情報を使用しています。具体的には、滞在情報には週の日、到着時間、滞在時間が含まれており、これをもとにエリア2Vecモデルを使用してエリアをベクトル空間にマッピングしています。また、COVID-19の影響を調べるために、特定の地区での人々の行動の変化を観察するための位置データも用いています。
新規性や解決できた問題:
この論文の新規性は、エリアを特徴付けるために滞在情報を用いた点にあります。これにより、従来のPOIデータや地域間の移動データでは捉えきれない、時間とともに動的に変化する人々の行動をモデリング結果に反映させることが可能になりました。また、COVID-19による行動変化を具体的に捉え、人々が不要不急の外出を控えたことや、エンターテイメントエリアの利用が減少したことなどを明らかにしました。
未解決問題:
未来の研究では、地域間の移動の連続関係を考慮したエリアの特徴付けや、エリア2Vecの結果を用いた人々の軌跡の表現が必要です。また、エリア2Vecではまだ考慮されていない、朝からオフィスに移動するなどの人間行動の規則性をモデルに組み込むことで、さらに詳細なエリアモデリングアプローチが可能になるでしょう。
url:
https://arxiv.org/abs/2401.10648
title:
Area Modeling using Stay Information for Large-Scale Users and Analysis for Influence of COVID-19
authors:
Kazuyuki Shoji, Shunsuke Aoki, Takuro Yonezawa, Nobuo Kawaguchi
date:
19 January, 2024;

Compositional Fusion of Signals in Data Embedding
目的:
この論文は、データ埋め込みにおける信号の構成的融合について研究しています。具体的には、単語埋め込み、文埋め込み、知識グラフ埋め込みの三つの異なる種類のデータ埋め込みにおいて、それらがどのように構成的な部分に分解可能か、またその分解がどのように解釈可能な成分として理解可能かを探求しています。
使用データ・情報:

  1. Word2Vecを用いた単語埋め込み、2) BERTを用いた文埋め込み、3) MovieLensデータセットを用いた知識グラフ埋め込み。これらの埋め込みを通じて、それぞれのデータセットから得られる意味的、構文的情報を分析し、どのようにそれらが各成分に分解可能かを検討しました。
    新規性・解決問題:
    この研究の新規性は、異なる種類の埋め込みがどの程度まで構成的に分解可能かを系統的に検討し、その分解がどのように解釈可能な成分として表現できるかを明らかにした点にあります。特に、BERTに基づく文埋め込みを分解することで、文の意味が如何にしてその構成要素に由来するかを定量的に示しました。また、知識グラフ埋め込みにおいては、ユーザーの映画の評価行動がどのようにユーザーの人口統計的特性と関連しているかを分析しました。
    未解決問題:
    構成的分解の精度をさらに向上させる方法、異なる種類の埋め込みに対する一般化可能な分解手法の開発、及び分解された成分が持つ意味的な解釈の深化についての研究が今後の課題です。また、埋め込みにおけるバイアスの影響を評価し、それを緩和する技術の開発も重要な未解決問題として残されています。
    url:
    https://arxiv.org/abs/2311.11085
    title:
    Compositional Fusion of Signals in Data Embedding
    authors:
    Zhijin Guo, Zhaozhen Xu, Martha Lewis, Nello Cristianini
    date:
    18 November, 2023;

Bit Cipher -- A Simple yet Powerful Word Representation System that Integrates Efficiently with Language Models
目的:
この論文は、大規模言語モデル(LLM)が支配的になる中で、古典的な事前学習された単語埋め込みが計算効率と微妙な言語解釈を通じてその関連性を保持していることを示しています。特に、Bit-cipherと呼ばれる新しい単語表現システムを導入し、バックプロパゲーションを必要とせずに論文情報と超効率的な次元削減技術を活用することで、強力な解釈可能性と効率性を提供します。
使用されたデータや情報:
Bit-cipherモデルのトレーニングには、0.5Bトークンから8Bトークンまでの異なるデータサイズが使用されました。これには、異なる半径(ウィンドウサイズ)とビット数が設定されています。また、標準的なspaCyトークン化が前処理に使用され、モデル比較のためにGloVe 6B埋め込みから単語埋め込みを導出しました。
新規性や解決できた問題:
Bit-cipherは、論文情報と次元削減技術を統合することで、計算効率を大幅に向上させると同時に、言語モデルのトレーニングとファインチューニングを加速することができます。これは、従来のトレーニングパラダイムと比較してより良い最適化を達成することを示しています。また、転移学習の高効率な代替手段を提供し、モデルの大幅な調整を必要とせずに、ターゲットデータセット上でのcipher埋め込みのトレーニングが可能です。
未解決問題:
Bit-cipherが従来の論文的単語埋め込みと直接比較されるべきではないとされていますが、大規模言語モデルアーキテクチャの一部としてどのように最も効果的に統合されるかは明確ではありません。また、異なるタイプのNLPタスクに対するその効果の一般化能力についてもさらなる検証が必要です。将来的には、これらの側面に対するさらなる研究が求められます。
url:
https://arxiv.org/abs/2311.11012
title:
Bit Cipher -- A Simple yet Powerful Word Representation System that Integrates Efficiently with Language Models
authors:
Haoran Zhao, Jake Ryland Williams
date:
18 November, 2023;

ChatGPT-guided Semantics for Zero-shot Learning
目的:
この論文は、ゼロショット学習(ZSL)の課題に取り組むことを目的としています。具体的には、訓練中に観測されていないオブジェクトの分類を可能にするために、クラスの意味論的記述を利用して見られたクラスから見られないクラスへの知識を伝達する方法を探求しています。さらに、一般化ゼロショット学習(GZSL)において、見られたクラスと見られないクラスの両方からクラスを予測する試みも含まれています。
使用データ・情報:
この研究では、2D画像データセット(CUBとAwA)および3Dポイントクラウドデータセット(ModelNet10, ModelNet40, ScanObjectNN)が使用されました。これらのデータセットを用いて、様々な埋め込みベースおよび生成モデルベースのZSL手法に対する提案手法の有効性を評価しました。
新規性・解決した問題:
本論文の新規性は、大規模言語モデルであるChatGPTを用いてクラスの意味論的記述を向上させることにあります。従来のZSL手法では手動での属性注釈や言語モデルからの自動単語ベクトルが用いられていましたが、ChatGPTを使用することで、関連する属性や意味論を含むテキスト記述を自動的かつ低ノイズで取得することが可能になります。これにより、クラス名から生成された記述を組み合わせることで、より表現力のある単語ベクトルを生成し、ZSLの精度を向上させることができました。
未解決問題:
将来的には、ChatGPTによる埋め込みベクトルを利用したオブジェクト検出やセグメンテーションタスクへの応用を検討することが挙げられます。また、ZSLのパフォーマンス向上のためにさらなる言語モデルの最適化や、異なるタイプのデータセットに対する適用性の検証も重要な課題です。
url:
https://arxiv.org/abs/2310.11657
title:
ChatGPT-guided Semantics for Zero-shot Learning
authors:
Fahimul Hoque Shubho, Townim Faisal Chowdhury, Ali Cheraghian, Morteza Saberi, Nabeel Mohammed, Shafin Rahman
date:
17 October, 2023;

Atoms as Words: A Novel Approach to Deciphering Material Properties using NLP-inspired Machine Learning on Crystallographic Information Files (CIFs)
目的:
この研究の主な目的は、天然言語処理(NLP)に触発された手法を用いて、結晶情報ファイル(CIF)から物質の特性を予測する新しいアプローチを開発することです。具体的には、CIF内の原子や原子位置をテキストの単語のように扱い、Word2Vecにインスパイアされた技術を使用して原子の埋め込みを生成し、物質の多様な特性を予測するモデルを訓練することです。
使用したデータや情報:
この研究では、Material Projectデータベースから取得した広範な結晶情報ファイル(CIF)を使用しました。これらのファイルには、単位セル内の原子とそのXYZ原子位置が記載されており、これを利用して原子の関係や頻繁に組み合わされる原子、原子間の三次元空間関係を学習します。
新規性および解決できた問題:
従来の物質特性予測方法と異なり、この研究はCIFをテキストとして扱い、原子と原子位置を単語のように解釈することで、物質の普遍的な表現を学習する点に新規性があります。このアプローチにより、局所的な化学的意味論だけでなく、グローバルな周期的構造情報も捉えることができるようになります。このモデルは、15の異なる物質特性を同時に予測する能力を示し、特定のモデルに依存しない汎用的な特性予測が可能となりました。
未解決問題:
この研究では、原子の埋め込みが周期表の配置と密接に関連していることが示されましたが、すべての元素についての明確な化学情報をモデルに提供していないため、元素間のさらに詳細な化学的性質や相互作用の理解を深めることが今後の課題です。また、異なるタイプの結晶構造に対するモデルの適用性や、さらに多くの物質特性に対する予測精度の向上も重要な未解決問題です。
url:
https://arxiv.org/abs/2311.09508
title:
Atoms as Words: A Novel Approach to Deciphering Material Properties using NLP-inspired Machine Learning on Crystallographic Information Files (CIFs)
authors:
Lalit Yadav
date:
15 November, 2023;

Well-calibrated Confidence Measures for Multi-label Text Classification with a Large Number of Labels
目的:
この論文は、多ラベルテキスト分類タスクにおいて、大量のラベルを扱う際の信頼性の高い予測を行うための手法を提案しています。具体的には、適切な信頼度を持つ予測セットを生成するための確証予測フレームワークの適応と、その効率的な実装に焦点を当てています。
使用データ・情報:
論文では、BookCorpusと英語Wikipediaから収集された大規模なテキストデータを用いて、BERTモデルを事前学習し、その後のテキスト分類タスクに適用しています。また、実験では、異なるデータセットに対して、提案手法と従来の手法を比較分析しています。
新規性・解決した問題:
この研究の新規性は、多ラベルテキスト分類における信頼性の高い予測を提供するために、確証予測フレームワークを適応させた点にあります。特に、大量のラベルが存在する場合において、各ラベルの信頼度を適切に評価し、予測セットを効率的に生成する手法を開発しました。これにより、予測の信頼性が向上し、多ラベル分類の精度が向上することが期待されます。
未解決問題:
将来的には、さらに多様なデータセットに対する手法の適用や、異なる言語・ジャンルにおけるテキストでの有効性の検証が必要です。また、計算効率のさらなる向上や、他の機械学習モデルとの統合による予測性能の向上も検討されるべきです。
url:
https://arxiv.org/abs/2312.09304
title:
Well-calibrated Confidence Measures for Multi-label Text Classification with a Large Number of Labels
authors:
Lysimachos Maltoudoglou, Andreas Paisios, Ladislav Lenc, Jiří Martínek, Pavel Král, Harris Papadopoulos
date:
14 December, 2023;

Research on Optimization of Natural Language Processing Model Based on Multimodal Deep Learning
目的:
この研究プロジェクトは、注目機構とマルチモーダルデータを基にした画像表現の最適化を目指しています。具体的には、属性モデルに複数のパターン層を追加し、画像コンテンツのセマンティック層と隠れ層を統合することで、画像特徴の識別方法を改善し、評価プロセスにおける主観的影響を排除することを目標としています。
使用されたデータや情報:
この研究では、Word2Vecメソッドによって量化された単語ベクトルを使用し、単語埋め込み畳み込みニューラルネットワークによって評価されました。また、MSCOCOとFlickr30Kという二つの一般公開データベースを使用してアルゴリズムの正確性と優位性をテストしました。
新規性や解決できた問題:
この研究の新規性は、画像特徴のロバストな評価モデルを改善するために畳み込みニューラルネットワークの優れた特徴分析特性を利用した点にあります。また、離散的な特徴を連続的な特性に変換することで、特徴前処理の複雑さを大幅に削減しました。さらに、自然言語処理技術を統合して、欠落画像特徴の直接評価を実現しました。
未解決問題:
今後の課題としては、階層的LSTMネットワークの訓練プロセスのさらなる強化や、注意スケールの洗練が挙げられます。これにより、人間のような説明の多様性と複雑さをさらに密接に模倣し、より知的で直感的な人工知能システムの進化に寄与することが期待されています。
url:
https://arxiv.org/abs/2406.08838
title:
Research on Optimization of Natural Language Processing Model Based on Multimodal Deep Learning
authors:
Dan Sun, Yaxin Liang, Yining Yang, Yuhan Ma, Qishi Zhan, Erdi Gao
date:
13 June, 2024;

VulCatch: Enhancing Binary Vulnerability Detection through CodeT5 Decompilation and KAN Advanced Feature Extraction
目的:
この論文は、バイナリコード内の既知および未知の脆弱性をより正確かつ効率的に検出するシステムを開発することを目的としています。特に、従来の手法よりも正確で効率的な脆弱性検出を目指して、進化した逆アセンブルとディープラーニング技術を組み合わせています。
使用したデータや情報:
この研究では、異なる最適化レベルとシナリオに対応する様々なデータセットを使用しています。具体的には、SARD-AdvOpt-SDM、SARD-TestVul-SDM、SARD-CWE-HighOpt-SDM、SARD-CWE-LowOpt-SDMなどのデータセットが用いられ、これらのデータセットを使用してシステムの性能を評価しました。
新規性や解決できた問題:
この研究の新規性は、CodeT5モデルを用いた進化した逆アセンブル技術と、Kolmogorov-Arnold Networks(KANs)を統合して特徴変換能力を向上させた点にあります。これにより、従来のニューラルネットワークモデルを上回る性能で未知の脆弱性を検出することが可能になりました。また、BiLSTM、注意機構、残差接続を用いたリアルタイムの脆弱性検出システムの開発に成功し、偽陽性率を低減しながら高い検出精度を達成しています。
未解決問題:
将来の課題としては、コンパイラの違いや関数内の無関係なコードによる変動性への対応、さらに高度な偽陽性率の低減が挙げられます。また、新しい脆弱性パターンの理解とその検出方法の開発も重要な未解決問題です。これらの問題に対処することで、システムの適用範囲を広げ、さらなる精度向上を図ることが期待されます。
url:
https://arxiv.org/abs/2408.07181
title:
VulCatch: Enhancing Binary Vulnerability Detection through CodeT5 Decompilation and KAN Advanced Feature Extraction
authors:
Abdulrahman Hamman Adama Chukkol, Senlin Luo, Kashif Sharif, Yunusa Haruna, Muhammad Muhammad Abdullahi
date:
13 August, 2024;

FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems
目的:
この論文は、GPUアーキテクチャ上でWord2Vecのメモリ要求を削減し、メモリアクセスの遅延ボトルネックを回避することを目的としています。具体的には、FULL-W2Vという新しい実装を通じて、データの再利用を最大限に活用し、パフォーマンスを大幅に向上させることを目指しています。
使用されたデータや情報:
論文では、Text8コーパスとOne Billion Wordsコーパスを用いて、異なるアーキテクチャにおけるWord2Vecのスループットとメモリ要求を測定しています。また、GPUのキャッシュとレジスタの使用効率を分析するために、Nsightツールを使用してデータを収集しています。
新規性や解決できた問題:
FULL-W2Vは、共有メモリ内でのコンテキスト単語のライフタイム再利用を管理し、ネガティブサンプルの最適化を行うことで、メモリ要求を大幅に削減しました。これにより、GPUのハードウェアキャッシュがWord2Vecのスパースで確率的なアクセスパターンに対して適切な追い出しポリシーを提供できない問題を克服し、キャッシュヒットを保証しました。また、これにより、メモリアクセスの遅延を軽減し、Word2Vecのパフォーマンスを向上させることができました。
未解決問題:
論文では、Word2Vecのトレーニングデータの文区切りを無視することでバッチの平均サイズを増加させ、GPUの利用効率を向上させていますが、これによる単語ペアの増加がモデル品質に与える影響についてはまだ完全には解明されていません。また、GPUのバッチ処理速度が向上しているため、バッチ処理の速度をさらに高めることが今後の課題として残されています。
url:
https://arxiv.org/abs/2312.07743
title:
FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems
authors:
Thomas Randall, Tyler Allen, Rong Ge
date:
12 December, 2023;

LOLgorithm: Integrating Semantic,Syntactic and Contextual Elements for Humor Classification
目的:
この研究では、手作りの特徴と論文的な埋め込みを組み合わせたモデルのパフォーマンスをテストしました。特に、ジョークを対象に文の構造と意味に基づいて特徴を作成し、これらの特徴がモデルがユーモアを認識する能力を向上させるかどうかを探求しています。
使用されたデータや情報:
ジョークのデータセットを使用し、文の構造や意味に基づいて特徴を作成しました。また、BERTモデルを用いて論文的な埋め込みを生成し、これを特徴と組み合わせてモデルの訓練を行いました。
新規性や解決できた問題:
ユーモアのテキストはしばしば独特のスタイル要素を持つことが示されており、直接的な言葉を複雑な文構造で使用し、鮮やかな要素(副詞や韻を含む)を含み、文内で意味が密接に関連していること、そして異なる語感を組み合わせることがユーモアの特徴であることが明らかになりました。これらの発見は、ユーモアの特定のスタイル要素を強調しています。
未解決問題:
今後の課題として、モデルが新しいジョークや異なる文化や言語のユーモアをどの程度うまく認識できるかを評価することが挙げられます。また、より広範な論文や異なるジャンルのテキストに対するモデルの適用性を検討することも重要です。
url:
https://arxiv.org/abs/2408.06335
title:
LOLgorithm: Integrating Semantic,Syntactic and Contextual Elements for Humor Classification
authors:
Tanisha Khurana, Kaushik Pillalamarri, Vikram Pande, Munindar Singh
date:
12 August, 2024;

A Multi-Embedding Convergence Network on Siamese Architecture for Fake Reviews
目的:
この論文は、ウェブベースのモジュールが現実のイベントへのアクセス手段として移行しているデジタル時代において、特にeコマースウェブサイトでの偽レビューを検出するためのシャムネットワークの実装について述べています。偽レビューは製品の取引記録に大きな影響を与えるため、その検出は消費者の意思決定を保護し、より正確で信頼性の高いレビューシステムを実現することを目指しています。
使用したデータや情報:
この研究では、約40Kのレビューを含む偽レビューデータセットを使用しています。これらのレビューは、レンマ化、一般的なストップワードの除去などの技術を用いて前処理され、その後、論文的関係を把握するためのMiniLM BERTと意味的関係を解析するためのWord2Vecによって埋め込みが生成されました。
新規性や解決した問題:
本研究の新規性は、MiniLM BERTとWord2Vecの両方の埋め込みを利用して、シャムネットワーク内で偽レビューを検出する点にあります。このアプローチにより、論文的および意味的な情報を組み合わせることで、偽レビューの識別精度を向上させることができました。また、LSTM層とファジーロジックを組み合わせることで、予測と検証のための高精度な判定が可能になりました。
未解決問題:
偽レビューの検出技術は進化していますが、生成される偽レビューも同様に進化しており、より精巧で誤解を招く内容になっているため、今後も継続的な改善と更新が必要です。また、異なる言語や文化における偽レビューの特性を理解し、多様なデータセットに対応するためのアプローチの開発も重要な課題です。
url:
https://arxiv.org/abs/2401.05995
title:
A Multi-Embedding Convergence Network on Siamese Architecture for Fake Reviews
authors:
Sankarshan Dasgupta, James Buckley
date:
11 January, 2024;

NLP for Knowledge Discovery and Information Extraction from Energetics Corpora
目的:
この研究の主な目的は、エネルギー学の文献から抽出された抽象的な要約を特徴付けるために、自然言語処理(NLP)アルゴリズムの能力を評価し、比較することです。具体的には、LDA、W2V、Transformerモデルを使用して、文献の抽象的な要約を数値表現に変換し、ランダムフォレスト分類アルゴリズムを使用して特定のサブエリアに分類する能力を検証しています。
使用データ・情報:
この研究では、エネルギー学の専門家によって手作業でラベル付けされた抽象的な要約を含むテストデータセットを使用しました。さらに、数値表現を得るための埋め込み技術と分類方法論も以前のセクションで説明されています。
新規性・解決した問題:
この研究の新規性は、エネルギー学の分野における文書の特徴付けと分類にNLP技術を適用した点にあります。Transformerモデルが最も高い精度を示したこと、およびドメイン固有のTransformerが他のバリアントよりも優れた性能を発揮したことが明らかになりました。これにより、論文依存の埋め込みを生成するTransformerの注意機構が、分類器がクラスを正確に割り当てることを学ぶのに有効であることが示されました。
未解決問題:
今後の研究では、エネルギー学専用の注釈付きデータセットの開発が必要です。また、訓練データセットのサイズが他の大規模言語モデルの訓練データセットと比較して約二桁小さいため、テキストデータの識別と収集が重要な進歩となります。さらに、計算能力とデータの可用性の欠如により、巨大な言語モデルの微調整が困難になっているため、プロンプトチューニングや少数ショット学習などの代替アプローチの探求も今後の課題です。
url:
https://arxiv.org/abs/2402.06964
title:
NLP for Knowledge Discovery and Information Extraction from Energetics Corpora
authors:
Francis G. VanGessel, Efrem Perry, Salil Mohan, Oliver M. Barham, Mark Cavolowsky
date:
10 February, 2024;

ALJP: An Arabic Legal Judgment Prediction in Personal Status Cases Using Machine Learning Models
目的:
この研究は、アラビア語の個人状態の法的事例に基づいて、法的判決とその理由を予測する2つの法的判断予測(LJP)モデルの開発を目指しています。具体的には、裁判所の訴状から判決結果を予測するモデルと、原告の主張と被告の回答から可能な判決の確率を予測するモデルが含まれます。
使用したデータや情報:
この研究では、サウジアラビアの個人状態のケースに特化したアラビア語のLJPデータセットを開発しました。このデータセットは、正義省が公開している個人状態のケースを収集し、さらに専門家を通じて新たなケースのサンプルを生成することで構築されました。データセットには、保護、結婚の無効化のケースが含まれており、それぞれのケースには真の判決結果が含まれています。
新規性や解決できた問題:
この研究の新規性は、アラビア語の個人状態のケースに特化したLJPモデルを開発した点にあります。これまでの研究では、主に中国語や英語で行われており、アラビア語のデータセットを用いた研究は存在していませんでした。また、この研究では、テキスト表現としてTF-IDFと単語埋め込みを用いた点、そして多クラス分類問題として法的判決と理由を予測する点が特徴です。
未解決問題:
将来的には、より多様な個人状態のケースをデータセットに含めること、また、モデルの精度を向上させるためにさらなる調整と改善を行うことが挙げられます。さらに、異なる法域や言語にモデルを適用することで、その汎用性を試すことも重要な課題です。
url:
https://arxiv.org/abs/2309.00238
title:
ALJP: An Arabic Legal Judgment Prediction in Personal Status Cases Using Machine Learning Models
authors:
Salwa Abbara, Mona Hafez, Aya Kazzaz, Areej Alhothali, Alhanouf Alsolami
date:
1 September, 2023;

Spoken Word2Vec: Learning Skipgram Embeddings from Speech
目的:
この論文は、音声データからの意味的関連性を符号化する音声ベースの単語埋め込みに関する研究を行っています。特に、従来の音声モデルが音韻的特徴を主に符号化していた問題を克服し、意味的関連性をより効果的に符号化する新しいモデルアーキテクチャを提案し評価しています。
使用データ・情報:
この研究では、LibriSpeechデータセットの'train-clean-100'サブセットのテキスト転写を使用しています。また、音声特徴としてはMFCC(Mel Frequency Cepstral Coefficients)や、Wav2Vec 2.0、HuBERTなどの事前訓練されたニューラル音声モデルから抽出された特徴を使用しています。
新規性・解決した問題:
従来の音声ベースの単語埋め込みモデルが音韻的特徴に偏ってしまう問題に対して、この研究ではディープラーニングとエンドツーエンドのアーキテクチャを用いることで、意味的特徴をより効果的に符号化する方法を提案しています。特に、キャラクターシーケンスを用いたモデル実験から、モデルが意味的特徴を学習する能力があることが示されました。
未解決問題:
この研究では、音声データの連続性や変動性が学習プロセスにどのように影響するかという問題に完全には対処されていません。また、音声モデルが環境や話者の特徴をどの程度無視できるかという点も今後の課題として残されています。これらの問題に対処するためには、さらに洗練されたアーキテクチャや学習手法の開発が必要です。
url:
https://arxiv.org/abs/2311.09319
title:
Spoken Word2Vec: Learning Skipgram Embeddings from Speech
authors:
Mohammad Amaan Sayeed, Hanan Aldarmaki
date:
1 July, 2024;

A framework for mining lifestyle profiles through multi-dimensional and high-order mobility feature clustering
目的:
この研究の主な目的は、ユーザーの移動パターンを理解し、それを高次元の特徴で表現することです。具体的には、空間、時間、セマンティックの各次元から高次の移動特徴を抽出し、これらの特徴を用いてユーザーの行動パターンをクラスタリングする方法を提案しています。
使用したデータや情報:
研究では、中国のインターネット企業から提供された匿名化された位置情報データセットを使用しています。このデータセットには、緯度と経度の座標、タイムスタンプ、ユーザー識別子が含まれています。さらに、ユーザーの滞在位置と関連するPOI(Point of Interest)やAOI(Area of Interest)とのセマンティックな関連付けも行われています。
新規性や解決できた問題:
この研究の新規性は、移動パターンの解析において、空間的、時間的、セマンティックな特徴を組み合わせた多次元的なアプローチを採用している点にあります。特に、セマンティックな情報を組み込むことで、単なる位置情報だけでは得られないユーザーの行動の背景や論文を理解することができます。また、マルチビューk-meansクラスタリング法を採用することで、特徴空間内でのクラスタリングが意味情報によって支配される問題を改善しました。
未解決問題:
将来的には、さらに異なる種類のデータソースを統合し、より詳細なユーザープロファイルを生成することが挑戦となります。また、セマンティック情報の精度を向上させるための方法や、異なるクラスタリングアルゴリズムの適用可能性についても検討する必要があります。さらに、プライバシーの保護を強化しながら、よりリアルタイムなデータ処理を実現する技術の開発も重要な課題です。
url:
https://arxiv.org/abs/2312.00411
title:
A framework for mining lifestyle profiles through multi-dimensional and high-order mobility feature clustering
authors:
Yeshuo Shu, Gangcheng Zhang, Keyi Liu, Jintong Tang, Liyan Xu
date:
1 December, 2023;

いいなと思ったら応援しよう!