adding processing script

JBris · JBris · commit 55c9e4135952 · 2023-09-24T04:46:31.000+13:00
diff --git a/bin/eda.py b/bin/eda.py
@@ -14,7 +14,7 @@
 from pathlib import Path
 
 ######################################
-# Main
+# Functions
 ######################################
 
 
@@ -159,6 +159,9 @@ def log_results(
 
     mlflow.end_run()
 
+######################################
+# Main
+######################################
 
 @hydra.main(version_base=None, config_path="../conf", config_name="config")
 def main(config: DictConfig) -> None:
diff --git a/bin/process.py b/bin/process.py
@@ -0,0 +1,152 @@
+#!/usr/bin/env python
+
+######################################
+# Imports
+######################################
+
+import hydra
+import matplotlib.pyplot as plt
+import networkx as nx
+import numpy as np
+from omegaconf import DictConfig
+from os.path import join as join_path
+import pandas as pd
+from pathlib import Path
+
+######################################
+# Functions
+######################################
+
+
+def process_network(
+    feature_matrix: pd.DataFrame, edge_list: pd.DataFrame, from_col: str, to_col: str, 
+    len_component: int = 5
+) -> tuple[pd.DataFrame, pd.DataFrame]:
+    """
+    Construct a graph from edge list data.
+
+    Args:
+        feature_matrix (pd.DataFrame):
+            The feature matrix.
+        edge_list (pd.DataFrame):
+            The edge list.
+        from_col (str):
+            The "from" column name.
+        to_col (str):
+            The "to" column name.
+        len_component (int, optional):
+            The minimum size of a subgraph to filter out. Defaults to 5.
+
+    Returns:
+        tuple[pd.DataFrame, pd.DataFrame]:
+            The processed graph as a feature matrix and edge list.
+    """
+    edges = edge_list.sort_values(from_col)
+
+    G = nx.from_pandas_edgelist(edges, from_col, to_col, create_using=nx.Graph())
+
+    for component in list(nx.connected_components(G)):
+        if len(component) <= len_component:
+            for node in component:
+                G.remove_node(node)
+    
+    nodes = list(G.nodes)
+    filtered_feature_matrix = feature_matrix[nodes]
+    filtered_edge_list = nx.to_pandas_edgelist(G, source=from_col, target=to_col)
+    return filtered_feature_matrix, filtered_edge_list
+
+
+def log_results(
+    tracking_uri: str,
+    experiment_prefix: str,
+    grn_name: str,
+    feature_matrix: pd.DataFrame, 
+    edge_list: pd.DataFrame
+) -> None:
+    """
+    Log experiment results to the experiment tracker.
+
+    Args:
+        tracking_uri (str):
+            The tracking URI.
+        experiment_prefix (str):
+            The experiment name prefix.
+        grn_name (str):
+            The name of the GRN.
+        feature_matrix (pd.DataFrame):
+            The feature matrix.
+        edge_list (pd.DataFrame):
+            The edge list.
+    """
+    import mlflow
+
+    mlflow.set_tracking_uri(tracking_uri)
+
+    experiment_name = f"{experiment_prefix}_process"
+    existing_exp = mlflow.get_experiment_by_name(experiment_name)
+    if not existing_exp:
+        mlflow.create_experiment(experiment_name)
+    mlflow.set_experiment(experiment_name)
+
+    mlflow.set_tag("grn", grn_name)
+
+    mlflow.log_param("grn", grn_name)
+
+    mlflow.log_metric("num_features", len(feature_matrix.index))
+    mlflow.log_metric("num_nodes", len(feature_matrix.columns))
+    mlflow.log_metric("num_1st_order_relationships", len(edge_list.index))
+
+    mlflow.end_run()
+
+######################################
+# Main
+######################################
+
+@hydra.main(version_base=None, config_path="../conf", config_name="config")
+def main(config: DictConfig) -> None:
+    """
+    The main entry point for the plotting pipeline.
+
+    Args:
+        config (DictConfig):
+            The pipeline configuration.
+    """
+    # Constants
+    EXPERIMENT_PREFIX = config["experiment"]["name"]
+
+    DATA_DIR = config["dir"]["data_dir"]
+    PREPROCESS_DIR = config["dir"]["preprocessed_dir"]
+    OUT_DIR = config["dir"]["out_dir"]
+
+    GRN_NAME = config["grn"]["input_dir"]
+    FEATURE_MATRIX_FILE = config["grn"]["feature_matrix"]
+    EDGE_LIST_FILE = config["grn"]["edge_list"]
+    FROM_COL = config["grn"]["from_col"]
+    TO_COL = config["grn"]["to_col"]
+
+    TRACKING_URI = config["experiment_tracking"]["tracking_uri"]
+    ENABLE_TRACKING = config["experiment_tracking"]["enabled"]
+
+    input_dir = join_path(DATA_DIR, PREPROCESS_DIR, GRN_NAME)
+    feature_matrix = pd.read_csv(join_path(input_dir, FEATURE_MATRIX_FILE))
+    edge_list = pd.read_csv(join_path(input_dir, EDGE_LIST_FILE))
+
+    filtered_feature_matrix, filtered_edge_list = process_network(feature_matrix, edge_list, FROM_COL, TO_COL)
+
+    output_dir = join_path(DATA_DIR, OUT_DIR, GRN_NAME, "process")
+    Path(output_dir).mkdir(parents=True, exist_ok=True)
+
+    filtered_feature_matrix.to_csv(join_path(output_dir, FEATURE_MATRIX_FILE))
+    filtered_edge_list.to_csv(join_path(output_dir, EDGE_LIST_FILE), index=False)
+
+    if ENABLE_TRACKING:
+        log_results(
+            TRACKING_URI,
+            EXPERIMENT_PREFIX,
+            GRN_NAME,
+            filtered_feature_matrix,
+            filtered_edge_list,
+        )
+
+if __name__ == "__main__":
+    main()
diff --git a/data/out/in_silico/process/.gitignore b/data/out/in_silico/process/.gitignore
@@ -0,0 +1,2 @@
+/expression_data.csv
+/gold_standard.csv
diff --git a/dvc.lock b/dvc.lock
@@ -30,12 +30,12 @@ stages:
       size: 48365
       isexec: true
   eda:
-    cmd: python bin/eda.py grn.input_dir=in_silico
+    cmd: python bin/eda.py grn.input_dir=in_silico grn.edge_list=gold_standard.csv
     deps:
     - path: bin/eda.py
       hash: md5
-      md5: 91405f1eed106719693d4de10e9cd9ca
-      size: 5343
+      md5: c2f1b995f4f9f7b040c43935a25d4b62
+      size: 5432
     - path: conf/config.yaml
       hash: md5
       md5: 1dda4ab35427c3f6d36d6649032c2cd2
@@ -63,3 +63,42 @@ stages:
       md5: ec1ac03c4923b48c493eab3886bea489
       size: 191
       isexec: true
+  process:
+    cmd: python bin/process.py grn.input_dir=in_silico grn.feature_matrix=expression_data.csv
+      grn.edge_list=gold_standard.csv
+    deps:
+    - path: bin/process.py
+      hash: md5
+      md5: 00b4bc49fcac48a47cb61cc8940d48fd
+      size: 4582
+    - path: conf/config.yaml
+      hash: md5
+      md5: 1dda4ab35427c3f6d36d6649032c2cd2
+      size: 210
+    - path: conf/experiment_tracking/docker.yaml
+      hash: md5
+      md5: f9a686d34db5162fc959ca7470695aad
+      size: 47
+    - path: conf/grn/in_silico.yaml
+      hash: md5
+      md5: 53861163fdc851b7a76f234bbe196701
+      size: 117
+    - path: data/preprocessed/in_silico/expression_data.csv
+      hash: md5
+      md5: bc5772dc41a43050fb822f065a5c4d2a
+      size: 13063512
+    - path: data/preprocessed/in_silico/gold_standard.csv
+      hash: md5
+      md5: 280e46f849dffad692ec41922b1304e3
+      size: 48325
+    outs:
+    - path: data/out/in_silico/process/expression_data.csv
+      hash: md5
+      md5: 70b70518c6dbd8489451b8fc88c5e000
+      size: 12415950
+      isexec: true
+    - path: data/out/in_silico/process/gold_standard.csv
+      hash: md5
+      md5: 8988a2f805eaa860e550ea6613eef862
+      size: 40110
+      isexec: true
diff --git a/dvc.yaml b/dvc.yaml
@@ -1,6 +1,6 @@
 stages:
   eda:
-    cmd: python bin/eda.py grn.input_dir=in_silico
+    cmd: python bin/eda.py grn.input_dir=in_silico grn.edge_list=gold_standard.csv
     deps:
     - conf/config.yaml
     - conf/grn/in_silico.yaml
@@ -10,3 +10,15 @@ stages:
     outs:
     - data/out/in_silico/eda/graph.png
     - data/out/in_silico/eda/metrics.csv
+  process:
+    cmd: python bin/process.py grn.input_dir=in_silico grn.feature_matrix=expression_data.csv grn.edge_list=gold_standard.csv
+    deps:
+    - conf/config.yaml
+    - conf/grn/in_silico.yaml
+    - conf/experiment_tracking/docker.yaml
+    - data/preprocessed/in_silico/expression_data.csv
+    - data/preprocessed/in_silico/gold_standard.csv
+    - bin/process.py
+    outs:
+    - data/out/in_silico/process/expression_data.csv
+    - data/out/in_silico/process/gold_standard.csv

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+/expression_data.csv`
	`2`	`+/gold_standard.csv`