Improving model#18
Conversation
| logger.info("Predicting...") | ||
| pred_scores = [] | ||
| name_features = "" | ||
| name_features = [] |
There was a problem hiding this comment.
Изменил, так как раньше возвращалась общая строка для всего датасета
| total_score += temp_score | ||
| name_features += temp_name_features | ||
| total_score_normalized = self._normalize_score(total_score, threshold=1) | ||
| if len(X.iloc[0, :]["text"].split()) < 2 and all( |
There was a problem hiding this comment.
мне кажется если хочешь не штрафовать за короткие сообщения, то просто убери правило _len_msg
Такие костыли усложняют код и не логичные
There was a problem hiding this comment.
Сделал так, потому короткие сообщения тоже могут быть спамовыми, e.g тг-линк + картинка. Или сообщения из одного стоп-ворда. Однако в основном короткие сообщения это ок и штрафовать их не нужно. Ориентировался на треин/тест/некоторые собранные примеры. Так убирались некоторые FP, однако явный спам все еще блокировался (не рос FN). Просто убирать правило коротких сообщений не приносит профита.
| logger.info("Predicting...") | ||
| pred_scores = [] | ||
| name_features = "" | ||
| name_features = [] |
| total_score += temp_score | ||
| name_features += temp_name_features | ||
| total_score_normalized = self._normalize_score(total_score, threshold=1) | ||
| if len(message["text"].split()) < 2 and all( |
There was a problem hiding this comment.
ну тут опять так же
на какого рода сообщений это нацелено? прям конкретно усложняет код, а цели я особо не вижу пока
|
|
||
| return score, feature | ||
|
|
||
| def _check_len_message(self, message): |
There was a problem hiding this comment.
из модели для валидации удалил правило, а в prod оставил
уже тогда и из продовой удалить это правило
No description provided.