Spaces:

pkiage
/

credit_risk_modeling_demo

App Files Files Community

pkiage commited on Feb 12, 2022

Commit

830efed

•

1 Parent(s): b5a7ea1

cleanup

Browse files

Files changed (1) hide show

src/features/util_build_features.py +0 -104

src/features/util_build_features.py CHANGED Viewed

@@ -113,110 +113,6 @@ def boolean_int_condition_label(df, label_column_name, condition):
     return y, df
-@dataclass
-class SplitDataset:
-    X_test: pd.DataFrame
-    X_train: pd.DataFrame
-    y_test: pd.Series
-    y_train: pd.Series
-    @property
-    def X_y_test(self) -> pd.DataFrame:
-        return pd.concat(
-            cast(
-                List[Union[pd.DataFrame, pd.Series]],
-                [
-                    self.X_test.reset_index(drop=True),
-                    self.y_test.reset_index(drop=True),
-                ],
-            ),
-            axis=1,
-        )
-    @property
-    def X_y_train(self) -> pd.DataFrame:
-        return pd.concat(
-            cast(
-                List[Union[pd.DataFrame, pd.Series]],
-                [
-                    self.X_train.reset_index(drop=True),
-                    self.y_train.reset_index(drop=True),
-                ],
-            ),
-            axis=1,
-        )
-@dataclass
-class Dataset:
-    df: pd.DataFrame
-    random_state: int
-    test_size: int
-    @property
-    def y_value(self) -> pd.DataFrame:
-        return self.df["loan_status"]
-    @property
-    def x_values(self) -> pd.DataFrame:
-        return cast(
-            pd.DataFrame,
-            drop_columns(
-                self.df,
-                [
-                    "loan_status",
-                    "loan_grade_A",
-                    "loan_grade_B",
-                    "loan_grade_C",
-                    "loan_grade_D",
-                    "loan_grade_E",
-                    "loan_grade_F",
-                    "loan_grade_G",
-                ],
-            ),
-        )
-    @property
-    def x_values_column_names(self):
-        return self.x_values.columns.tolist()
-    def x_values_filtered_columns(self, columns: List[str]) -> pd.DataFrame:
-        return self.df.filter(columns)
-    def train_test_split(
-        self, selected_x_values: pd.DataFrame
-    ) -> SplitDataset:
-        X_train, X_test, y_train, y_test = train_test_split(
-            selected_x_values,
-            self.y_value,
-            test_size=self.test_size / 100,  # since up was given as pct
-            random_state=self.random_state,
-        )
-        return SplitDataset(
-            X_train=cast(pd.DataFrame, X_train),
-            X_test=cast(pd.DataFrame, X_test),
-            y_train=cast(pd.Series, y_train),
-            y_test=cast(pd.Series, y_test),
-        )
-def drop_columns(df, columns):
-    return df.drop(columns, axis=1)
-def remove_less_than_0_columns(df, column):
-    df[column].dropna()
-    return df.loc[(df[column] != 0).any(1)]
-def boolean_int_condition_label(df, label_column_name, condition):
-    df[label_column_name] = condition
-    y = df[label_column_name].astype(int)
-    df = drop_columns(df, label_column_name)
-    return y, df
 @st.cache(suppress_st_warning=True)
 def undersample_training_data(
     df: pd.DataFrame, column_name: str, split_dataset

     return y, df
 @st.cache(suppress_st_warning=True)
 def undersample_training_data(
     df: pd.DataFrame, column_name: str, split_dataset