PREVENTアドベントカレンダーの記事です。 今回は、トピックモデリングライブラリ「BERTopic」を使って、日本語のデータセットを解析した体験をご紹介します。公式チュートリアルは英語のデータセットを対象としたものが多いですが、日本語データで利用 ...
Bertopicで特許文献の整理をしてみました。 分類するため、要約にZephyr-7B-βを、要約文のembeddingにbge-large-en-v1.5を使用しました。 対象は、最近また騒がしい半導体を勉強がてら使用しました。 Bertopicが便利なので、Bertopicを使用。 embeddingにはBAAI(北京智源人工 ...
Abstract: Topic modeling has become essential in a variety of text mining applications, such as document clustering and recommendation systems. This study investigates the potential of BERTopic, a ...
Abstract: As a rich source of direct user needs, online reviews can be effectively analyzed through topic modeling to uncover user preferences and requirements. However, the short and unstructured ...
Topic Modeling: Apply BERTopic to categorize Netflix reviews into key topics. Content Insights: Analyze the distribution of topics to gain insights into viewer interests, preferences, and feedback on ...
I've been using BERTopic for topic modeling and encountered an issue where I cannot display more than 10 words per topic, even though I've explicitly set top_n_words to 15. This issue persists across ...