update BERTopic test

TimSchopf · TimSchopf · commit c3bc1230e267 · 2024-04-29T14:31:05.000+02:00
Signed-off-by: Tim Schopf &lt;tim.schopf@t-online.de&gt;
diff --git a/tests/requirements.txt b/tests/requirements.txt
@@ -3,5 +3,5 @@ keybert>=0.5.0
 flair==0.11.3
 scipy==1.7.3
 bertopic>=0.16.1
-datasets==2.13.2
+scikit-learn>=1.0.1
 umap-learn==0.5.4
diff --git a/tests/test_vectorizers.py b/tests/test_vectorizers.py
@@ -3,10 +3,10 @@
 import flair
 import spacy
 from bertopic import BERTopic
-from datasets import load_dataset
 from flair.models import SequenceTagger
 from flair.tokenization import SegtokSentenceSplitter
 from keybert import KeyBERT
+from sklearn.datasets import fetch_20newsgroups
 
 import tests.utils as utils
 from keyphrase_vectorizers import KeyphraseCountVectorizer, KeyphraseTfidfVectorizer
@@ -172,9 +172,8 @@ def test_online_vectorizer():
 
 
 def test_bertopic():
-    data = load_dataset("ag_news")
-    texts = data['train']['text']
-    texts = texts[:100]
+    data = fetch_20newsgroups(subset='train')
+    texts = data.data[:100]
     topic_model = BERTopic(vectorizer_model=KeyphraseCountVectorizer())
     topics, probs = topic_model.fit_transform(documents=texts)
     new_topics = topic_model.reduce_outliers(texts, topics)