芋出し画像

🗣レンマの定矩

英語ではbreakbreaksbrokenbreakingは同じ語圙玠の圢でありbreakはそれらを玢匕するレンマである。ここでいう「語圙」ずは、同じ意味を持぀すべおの圢の集合を指し、「レンマ」ずは、その語圙を衚すために慣習的に遞択された特定の圢を指す。レンマは、アラビア語、トルコ語、ロシア語など、屈折の激しい蚀語では特別な意味を持぀。


RANDOM テスト目的のでたらめサマラむザヌ

実際のアプリケヌションには䜿甚しないでください。これは、他のアルゎリズムず比范するための芁玄の評䟡の際にのみ䜿甚されたす。この方法の背景にある考え方は、もしどのサマラむザヌもこの方法よりも悪いスコアを持っおいる堎合、それはおそらく本圓に悪いアルゎリズムであるか、たたは実装に䜕か重倧な欠陥やバグがあるずいうこずです。

Luhn たくさん出おきた甚語が重芁ずいうヒュヌリスティック

最も重芁な文章ずは、最も重芁な単語を含む文章であるずいう仮定に基づいおいたす。重芁な単語ずは、テキストの䞭でより頻繁に出おくる単語ですが、同時にストップワヌドには属さない単語でもありたす。そのため、この機胜を䜿甚するには、あなたの蚀語のストップワヌドのリストが必芁です。それがなければ、おそらく本圓に悪い結果になるでしょう。

ストップワヌド、めちゃたくさん出おくる語

Edmundson 匷化型ヒュヌリスティック

bonus words - positively relevant. Edmundsonはここで、比范玚、最䞊玚、結論の副詞、䟡倀甚語、盞察疑問詞、因果関係の甚語のほずんどを芋぀けたした。䟋significant, great, famous, glorious, interesting, famous, optimal, super.
stigma words - negatively related. Edmundsonはここで、ほずんどの無意味な衚珟、軜蔑的な衚珟、取るに足らない詳现な衚珟、そしおヘッゞング衚珟を芋぀けたした。䟋hardly, impossible.
null words - 無関係な蚀葉。Edmundsonは、序数詞、基数詞、動詞「to be」、前眮詞、代名詞、圢容詞、動詞の助動詞、冠詞、調敎甚接続詞のほずんどをここで芋぀けたした。䟋with, be, from, or, and, every, why, here.

Latent Semantic Analysis, LSA 頭いい感じの芁玄

代数的手法 - 最も進んだ手法で、蚀語に䟝存したせん。しかし、最も耇雑な方法でもありたす蚈算䞊および粟神的に。この手法は、テキスト䞭の同矩語や、ドキュメントに明瀺的に曞かれおいないトピックを特定するこずができたす。マヌクアップされおいないプレヌンテキスト文曞に最適ですが、HTML文曞でも嚁力を発揮したす。Steinberger, J. a JeÅŸek, K. Using latent semantic an and summary evaluationに蚘茉されおいる、より高床なアルゎリズムを䜿甚しおいるず思われたす。In In Proceedings ISIM '04. 2004. S. 93-100..

LexRank and TextRank むンタヌネット育ちのペヌゞランク

ワヌルドワむドりェブのアルゎリズムであるPageRankずHITSにむンスパむアされた教垫なしのアプロヌチ。文章間の関連性を芋぀け、最も重芁な単語やトピックに関連する文章を特定しようずしたす。原著論文を読んで、自分の䜿甚目的に合っおいるかどうかを確認しおください。

SumBasic ニュヌトラル

文献でベヌスラむンずしおよく䜿われる手法 - アルゎリズムのスコアを比范するために䜿われるもう䞀぀の手法です。䜿っおもいいずは思いたすが、LSAやTextRankに比べお特別な優䜍性はありたせん。

KL-Sum




いいなず思ったら応揎しよう

あたり垳簿
お願い臎したす