Lib/model accessor by du-phan · Pull Request #1 · dataiku/dss-plugin-dkulib

du-phan · 2020-12-30T11:46:55Z

No description provided.

HenriChabert

Seems great! Some minor changes but nothing really important.

Could you also update the Makefile by adding your package please?

HenriChabert · 2021-01-12T14:15:17Z

dkulib/dku_model_accessor/README.md

+
+
+```python
+from dku_model_accessor import get_model_handler, ModelAccessor


Suggested change

from dku_model_accessor import get_model_handler, ModelAccessor

import dataiku

from dku_model_accessor import get_model_handler, ModelAccessor

HenriChabert · 2021-01-12T14:15:58Z

dkulib/dku_model_accessor/README.md

+```python
+from dku_model_accessor import get_model_handler, ModelAccessor
+
+model_id = 'XQyU0TO0'


Suggested change

model_id = 'XQyU0TO0'

model_id = 'YOUR_MODEL_ID'

Maybe use a more explicit ID

HenriChabert · 2021-01-12T14:17:06Z

dkulib/dku_model_accessor/constants.py

+class DkuModelAccessorConstants(object):
+    MODEL_ID = 'model_id'
+    VERSION_ID = 'version_id'
+    REGRRSSION_TYPE = 'REGRESSION'


Suggested change

REGRRSSION_TYPE = 'REGRESSION'

REGRESSION_TYPE = 'REGRESSION'

typo

HenriChabert · 2021-01-12T14:22:08Z

dkulib/dku_model_accessor/model_accessor.py

+    def get_original_test_df(self, limit=DkuModelAccessorConstants.MAX_NUM_ROW):
+        try:
+            full_test_df = self.model_handler.get_test_df()[0]
+            test_df = full_test_df[:limit]
+            logger.info('Loading {}/{} rows of the original test set'.format(len(test_df), len(full_test_df)))
+            return test_df
+        except Exception as e:
+            logger.warning('Can not retrieve original test set: {}. The plugin will take the whole original dataset.'.format(e))
+            full_test_df = self.model_handler.get_full_df()[0]
+            test_df = full_test_df[:limit]
+            logger.info('Loading {}/{} rows of the whole original test set'.format(len(test_df), len(full_test_df)))
+            return test_df


Suggested change

def get_original_test_df(self, limit=DkuModelAccessorConstants.MAX_NUM_ROW):

try:

full_test_df = self.model_handler.get_test_df()[0]

test_df = full_test_df[:limit]

logger.info('Loading {}/{} rows of the original test set'.format(len(test_df), len(full_test_df)))

return test_df

except Exception as e:

logger.warning('Can not retrieve original test set: {}. The plugin will take the whole original dataset.'.format(e))

full_test_df = self.model_handler.get_full_df()[0]

test_df = full_test_df[:limit]

logger.info('Loading {}/{} rows of the whole original test set'.format(len(test_df), len(full_test_df)))

return test_df

def get_original_test_df(self, limit=DkuModelAccessorConstants.MAX_NUM_ROW):

try:

full_test_df = self.model_handler.get_test_df()[0]

except Exception as e:

logger.warning('Can not retrieve original test set: {}. The plugin will take the whole original dataset.'.format(e))

full_test_df = self.model_handler.get_full_df()[0]

test_df = full_test_df[:limit]

logger.info('Loading {}/{} rows of the original test set'.format(len(test_df), len(full_test_df)))

return test_df

Code repeated, I would only try...catch on what can really raise an exception.

HenriChabert · 2021-01-12T14:25:01Z

dkulib/dku_model_accessor/model_accessor.py

+            logger.info('Fitting surrogate model ...')
+            surrogate_model = SurrogateModel(self.get_prediction_type())
+            original_test_df = self.get_original_test_df()
+            predictions_on_original_test_df = self.get_predictor().predict(original_test_df)
+            surrogate_df = original_test_df[self.get_selected_features()]
+            surrogate_df[DkuModelAccessorConstants.SURROGATE_TARGET] = predictions_on_original_test_df['prediction']
+            surrogate_model.fit(surrogate_df, DkuModelAccessorConstants.SURROGATE_TARGET)
+            feature_names = surrogate_model.get_features()
+            feature_importances = surrogate_model.clf.feature_importances_


Maybe it would be better to wrap into a new method fit_surrogate_model()

HenriChabert · 2021-01-12T14:27:10Z

dkulib/dku_model_accessor/model_accessor.py

+    def get_selected_features(self):
+        """
+        Return only features used in the model
+        """
+        selected_features = []
+        for feat, feat_info in self.get_per_feature().items():
+            if feat_info.get('role') == 'INPUT':
+                selected_features.append(feat)
+        return selected_features
+
+    def get_selected_and_rejected_features(self):
+        """
+        Return all features in the input dataset except the target
+        """
+        selected_features = []
+        for feat, feat_info in self.get_per_feature().items():
+            if feat_info.get('role') in ['INPUT', 'REJECT']:
+                selected_features.append(feat)
+        return selected_features


Suggested change

def get_selected_features(self):

"""

Return only features used in the model

"""

selected_features = []

for feat, feat_info in self.get_per_feature().items():

if feat_info.get('role') == 'INPUT':

selected_features.append(feat)

return selected_features

def get_selected_and_rejected_features(self):

"""

Return all features in the input dataset except the target

"""

selected_features = []

for feat, feat_info in self.get_per_feature().items():

if feat_info.get('role') in ['INPUT', 'REJECT']:

selected_features.append(feat)

return selected_features

def get_features_by_status(self, status):

return [feat for feat, feat_info in self.get_per_feature().items() if feat_info.get('role') in status]

def get_selected_features(self):

"""

Return only features used in the model

"""

return self.get_features_by_status(['INPUT'])

def get_selected_and_rejected_features(self):

"""

Return all features in the input dataset except the target

"""

return self.get_features_by_status(['INPUT', 'REJECT'])

DRY

HenriChabert · 2021-01-12T14:28:15Z

dkulib/dku_model_accessor/model_accessor.py

+        for algorithm in ALGORITHMS_WITH_VARIABLE_IMPORTANCE:
+            if isinstance(algo, algorithm):
+                return True
+            elif predictor.params.modeling_params.get('algorithm') in [DkuModelAccessorConstants.DKU_XGBOOST_CLASSIF, DkuModelAccessorConstants.DKU_XGBOOST_REGRESSION]:


I would place this array in a new var tree_based_algo = [DkuModelAccessorConstants.DKU_XGBOOST_CLASSIF, DkuModelAccessorConstants.DKU_XGBOOST_REGRESSION] for PEP8 and ease of addition

Du Phan added 4 commits December 30, 2020 12:22

add dku_model_accessor

f5af1ce

add .idea to .gitingore

fba767f

add requirements

7a00fbe

add readme

6b97942

du-phan requested a review from HenriChabert January 11, 2021 13:29

HenriChabert reviewed Jan 12, 2021

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Lib/model accessor#1

Lib/model accessor#1
du-phan wants to merge 4 commits intomainfrom
lib/model_accessor

du-phan commented Dec 30, 2020

Uh oh!

HenriChabert left a comment

Uh oh!

HenriChabert Jan 12, 2021

Uh oh!

HenriChabert Jan 12, 2021

Uh oh!

HenriChabert Jan 12, 2021

Uh oh!

HenriChabert Jan 12, 2021

Uh oh!

HenriChabert Jan 12, 2021

Uh oh!

HenriChabert Jan 12, 2021

Uh oh!

HenriChabert Jan 12, 2021

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants



		```python
		from dku_model_accessor import get_model_handler, ModelAccessor

	from dku_model_accessor import get_model_handler, ModelAccessor
	import dataiku
	from dku_model_accessor import get_model_handler, ModelAccessor

	REGRRSSION_TYPE = 'REGRESSION'
	REGRESSION_TYPE = 'REGRESSION'

Conversation

du-phan commented Dec 30, 2020

Uh oh!

HenriChabert left a comment

Choose a reason for hiding this comment

Uh oh!

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

Uh oh!

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

Uh oh!

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

Uh oh!

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

Uh oh!

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

Uh oh!

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

Uh oh!

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants