Rework for load_dataset

Michaelliv · Michaelliv · commit 07ad8fdc78a2 · 2021-05-21T01:33:11.000+03:00
diff --git a/load_dataset/function.yaml b/load_dataset/function.yaml
@@ -2,8 +2,8 @@ kind: job
 metadata:
   name: load-dataset
   tag: ''
-  hash: 0a97acef655930346fe3b36052526ec2dc359456
-  project: ''
+  hash: f952386500c0b8abc58f0a2fb6a42ff7c16881bf
+  project: default
   labels:
     author: yjb
     framework: sklearn
@@ -36,23 +36,29 @@ spec:
       - name: context
         type: MLClientCtx
         doc: function execution context
+        default: ''
       - name: dataset
         type: str
         doc: name of the dataset to load
+        default: ''
       - name: name
         type: str
         doc: artifact name (defaults to dataset)
+        default: ''
       - name: file_ext
         type: str
         doc: 'output file_ext: parquet or csv'
         default: parquet
       - name: params
         type: dict
         doc: params of the sklearn load_data method
-      outputs: []
-      lineno: 9
+        default: {}
+      outputs:
+      - default: ''
+      lineno: 6
   description: load a toy dataset from scikit-learn
   build:
-    functionSourceCode: IyBHZW5lcmF0ZWQgYnkgbnVjbGlvLmV4cG9ydC5OdWNsaW9FeHBvcnRlciBvbiAyMDIwLTA1LTAyIDE4OjMzCgoKaW1wb3J0IG51bXB5IGFzIG5wCmltcG9ydCBwYW5kYXMgYXMgcGQKZnJvbSBtbHJ1bi5leGVjdXRpb24gaW1wb3J0IE1MQ2xpZW50Q3R4CgoKZGVmIGxvYWRfZGF0YXNldCgKICAgICAgICBjb250ZXh0OiBNTENsaWVudEN0eCwKICAgICAgICBkYXRhc2V0OiBzdHIsCiAgICAgICAgbmFtZTogc3RyID0gJycsCiAgICAgICAgZmlsZV9leHQ6IHN0ciA9ICdwYXJxdWV0JywKICAgICAgICBwYXJhbXM6IGRpY3QgPSB7fQopIC0+IE5vbmU6CiAgICAiIiJMb2FkcyBhIHNjaWtpdC1sZWFybiB0b3kgZGF0YXNldCBmb3IgY2xhc3NpZmljYXRpb24gb3IgcmVncmVzc2lvbgoKICAgIFRoZSBmb2xsb3dpbmcgZGF0YXNldHMgYXJlIGF2YWlsYWJsZSAoJ25hbWUnIDogZGVzcmlwdGlvbik6CgogICAgICAgICdib3N0b24nICAgICAgICAgIDogYm9zdG9uIGhvdXNlLXByaWNlcyBkYXRhc2V0IChyZWdyZXNzaW9uKQogICAgICAgICdpcmlzJyAgICAgICAgICAgIDogaXJpcyBkYXRhc2V0IChjbGFzc2lmaWNhdGlvbikKICAgICAgICAnZGlhYmV0ZXMnICAgICAgICA6IGRpYWJldGVzIGRhdGFzZXQgKHJlZ3Jlc3Npb24pCiAgICAgICAgJ2RpZ2l0cycgICAgICAgICAgOiBkaWdpdHMgZGF0YXNldCAoY2xhc3NpZmljYXRpb24pCiAgICAgICAgJ2xpbm5lcnVkJyAgICAgICAgOiBsaW5uZXJ1ZCBkYXRhc2V0IChtdWx0aXZhcmlhdGUgcmVncmVzc2lvbikKICAgICAgICAnd2luZScgICAgICAgICAgICA6IHdpbmUgZGF0YXNldCAoY2xhc3NpZmljYXRpb24pCiAgICAgICAgJ2JyZWFzdF9jYW5jZXInICAgOiBicmVhc3QgY2FuY2VyIHdpc2NvbnNpbiBkYXRhc2V0IChjbGFzc2lmaWNhdGlvbikKCiAgICBUaGUgc2Npa2l0LWxlYXJuIGZ1bmN0aW9ucyByZXR1cm4gYSBkYXRhIGJ1bmNoIGluY2x1ZGluZyB0aGUgZm9sbG93aW5nIGl0ZW1zOgogICAgLSBkYXRhICAgICAgICAgICAgICB0aGUgZmVhdHVyZXMgbWF0cml4CiAgICAtIHRhcmdldCAgICAgICAgICAgIHRoZSBncm91bmQgdHJ1dGggbGFiZWxzCiAgICAtIERFU0NSICAgICAgICAgICAgIGEgZGVzY3JpcHRpb24gb2YgdGhlIGRhdGFzZXQKICAgIC0gZmVhdHVyZV9uYW1lcyAgICAgaGVhZGVyIGZvciBkYXRhCgogICAgVGhlIGZlYXR1cmVzIChhbmQgdGhlaXIgbmFtZXMpIGFyZSBzdG9yZWQgd2l0aCB0aGUgdGFyZ2V0IGxhYmVscyBpbiBhIERhdGFGcmFtZS4KCiAgICBGb3IgZnVydGhlciBkZXRhaWxzIHNlZSBodHRwczovL3NjaWtpdC1sZWFybi5vcmcvc3RhYmxlL2RhdGFzZXRzL2luZGV4Lmh0bWwjdG95LWRhdGFzZXRzCgogICAgOnBhcmFtIGNvbnRleHQ6ICAgIGZ1bmN0aW9uIGV4ZWN1dGlvbiBjb250ZXh0CiAgICA6cGFyYW0gZGF0YXNldDogICAgbmFtZSBvZiB0aGUgZGF0YXNldCB0byBsb2FkCiAgICA6cGFyYW0gbmFtZTogICAgICAgYXJ0aWZhY3QgbmFtZSAoZGVmYXVsdHMgdG8gZGF0YXNldCkKICAgIDpwYXJhbSBmaWxlX2V4dDogICBvdXRwdXQgZmlsZV9leHQ6IHBhcnF1ZXQgb3IgY3N2CiAgICA6cGFyYW0gcGFyYW1zOiAgICAgcGFyYW1zIG9mIHRoZSBza2xlYXJuIGxvYWRfZGF0YSBtZXRob2QKICAgICIiIgogICAgZGF0YXNldCA9IHN0cihkYXRhc2V0KQogICAgcGtnX21vZHVsZSA9ICdza2xlYXJuLmRhdGFzZXRzJwogICAgZm5hbWUgPSBmJ2xvYWRfe2RhdGFzZXR9JwoKICAgIHBrZ19tb2R1bGUgPSBfX2ltcG9ydF9fKHBrZ19tb2R1bGUsIGZyb21saXN0PVtmbmFtZV0pCiAgICBsb2FkX2RhdGFfZm4gPSBnZXRhdHRyKHBrZ19tb2R1bGUsIGZuYW1lKQoKICAgIGRhdGEgPSBsb2FkX2RhdGFfZm4oKipwYXJhbXMpCiAgICBmZWF0dXJlX25hbWVzID0gZGF0YVsnZmVhdHVyZV9uYW1lcyddCgogICAgeHkgPSBucC5jb25jYXRlbmF0ZShbZGF0YVsnZGF0YSddLCBkYXRhWyd0YXJnZXQnXS5yZXNoYXBlKC0xLCAxKV0sIGF4aXM9MSkKICAgIGlmIGhhc2F0dHIoZmVhdHVyZV9uYW1lcywgJ2FwcGVuZCcpOgogICAgICAgIGZlYXR1cmVfbmFtZXMuYXBwZW5kKCdsYWJlbHMnKQogICAgZWxzZToKICAgICAgICBmZWF0dXJlX25hbWVzID0gbnAuYXBwZW5kKGZlYXR1cmVfbmFtZXMsICdsYWJlbHMnKQogICAgZGYgPSBwZC5EYXRhRnJhbWUoZGF0YT14eSwgY29sdW1ucz1mZWF0dXJlX25hbWVzKQoKICAgIGNvbnRleHQubG9nX2RhdGFzZXQobmFtZSBvciBkYXRhc2V0LCBkZj1kZiwgZm9ybWF0PWZpbGVfZXh0LCBpbmRleD1GYWxzZSkKCg==
+    functionSourceCode: aW1wb3J0IG51bXB5IGFzIG5wCmltcG9ydCBwYW5kYXMgYXMgcGQKZnJvbSBtbHJ1bi5leGVjdXRpb24gaW1wb3J0IE1MQ2xpZW50Q3R4CgoKZGVmIGxvYWRfZGF0YXNldCgKICAgIGNvbnRleHQ6IE1MQ2xpZW50Q3R4LAogICAgZGF0YXNldDogc3RyLAogICAgbmFtZTogc3RyID0gIiIsCiAgICBmaWxlX2V4dDogc3RyID0gInBhcnF1ZXQiLAogICAgcGFyYW1zOiBkaWN0ID0ge30sCikgLT4gTm9uZToKICAgICIiIkxvYWRzIGEgc2Npa2l0LWxlYXJuIHRveSBkYXRhc2V0IGZvciBjbGFzc2lmaWNhdGlvbiBvciByZWdyZXNzaW9uCgogICAgVGhlIGZvbGxvd2luZyBkYXRhc2V0cyBhcmUgYXZhaWxhYmxlICgnbmFtZScgOiBkZXNyaXB0aW9uKToKCiAgICAgICAgJ2Jvc3RvbicgICAgICAgICAgOiBib3N0b24gaG91c2UtcHJpY2VzIGRhdGFzZXQgKHJlZ3Jlc3Npb24pCiAgICAgICAgJ2lyaXMnICAgICAgICAgICAgOiBpcmlzIGRhdGFzZXQgKGNsYXNzaWZpY2F0aW9uKQogICAgICAgICdkaWFiZXRlcycgICAgICAgIDogZGlhYmV0ZXMgZGF0YXNldCAocmVncmVzc2lvbikKICAgICAgICAnZGlnaXRzJyAgICAgICAgICA6IGRpZ2l0cyBkYXRhc2V0IChjbGFzc2lmaWNhdGlvbikKICAgICAgICAnbGlubmVydWQnICAgICAgICA6IGxpbm5lcnVkIGRhdGFzZXQgKG11bHRpdmFyaWF0ZSByZWdyZXNzaW9uKQogICAgICAgICd3aW5lJyAgICAgICAgICAgIDogd2luZSBkYXRhc2V0IChjbGFzc2lmaWNhdGlvbikKICAgICAgICAnYnJlYXN0X2NhbmNlcicgICA6IGJyZWFzdCBjYW5jZXIgd2lzY29uc2luIGRhdGFzZXQgKGNsYXNzaWZpY2F0aW9uKQoKICAgIFRoZSBzY2lraXQtbGVhcm4gZnVuY3Rpb25zIHJldHVybiBhIGRhdGEgYnVuY2ggaW5jbHVkaW5nIHRoZSBmb2xsb3dpbmcgaXRlbXM6CiAgICAtIGRhdGEgICAgICAgICAgICAgIHRoZSBmZWF0dXJlcyBtYXRyaXgKICAgIC0gdGFyZ2V0ICAgICAgICAgICAgdGhlIGdyb3VuZCB0cnV0aCBsYWJlbHMKICAgIC0gREVTQ1IgICAgICAgICAgICAgYSBkZXNjcmlwdGlvbiBvZiB0aGUgZGF0YXNldAogICAgLSBmZWF0dXJlX25hbWVzICAgICBoZWFkZXIgZm9yIGRhdGEKCiAgICBUaGUgZmVhdHVyZXMgKGFuZCB0aGVpciBuYW1lcykgYXJlIHN0b3JlZCB3aXRoIHRoZSB0YXJnZXQgbGFiZWxzIGluIGEgRGF0YUZyYW1lLgoKICAgIEZvciBmdXJ0aGVyIGRldGFpbHMgc2VlIGh0dHBzOi8vc2Npa2l0LWxlYXJuLm9yZy9zdGFibGUvZGF0YXNldHMvaW5kZXguaHRtbCN0b3ktZGF0YXNldHMKCiAgICA6cGFyYW0gY29udGV4dDogICAgZnVuY3Rpb24gZXhlY3V0aW9uIGNvbnRleHQKICAgIDpwYXJhbSBkYXRhc2V0OiAgICBuYW1lIG9mIHRoZSBkYXRhc2V0IHRvIGxvYWQKICAgIDpwYXJhbSBuYW1lOiAgICAgICBhcnRpZmFjdCBuYW1lIChkZWZhdWx0cyB0byBkYXRhc2V0KQogICAgOnBhcmFtIGZpbGVfZXh0OiAgIG91dHB1dCBmaWxlX2V4dDogcGFycXVldCBvciBjc3YKICAgIDpwYXJhbSBwYXJhbXM6ICAgICBwYXJhbXMgb2YgdGhlIHNrbGVhcm4gbG9hZF9kYXRhIG1ldGhvZAogICAgIiIiCiAgICBkYXRhc2V0ID0gc3RyKGRhdGFzZXQpCiAgICBwa2dfbW9kdWxlID0gInNrbGVhcm4uZGF0YXNldHMiCiAgICBmbmFtZSA9IGYibG9hZF97ZGF0YXNldH0iCgogICAgcGtnX21vZHVsZSA9IF9faW1wb3J0X18ocGtnX21vZHVsZSwgZnJvbWxpc3Q9W2ZuYW1lXSkKICAgIGxvYWRfZGF0YV9mbiA9IGdldGF0dHIocGtnX21vZHVsZSwgZm5hbWUpCgogICAgZGF0YSA9IGxvYWRfZGF0YV9mbigqKnBhcmFtcykKICAgIGZlYXR1cmVfbmFtZXMgPSBkYXRhWyJmZWF0dXJlX25hbWVzIl0KCiAgICB4eSA9IG5wLmNvbmNhdGVuYXRlKFtkYXRhWyJkYXRhIl0sIGRhdGFbInRhcmdldCJdLnJlc2hhcGUoLTEsIDEpXSwgYXhpcz0xKQogICAgaWYgaGFzYXR0cihmZWF0dXJlX25hbWVzLCAiYXBwZW5kIik6CiAgICAgICAgZmVhdHVyZV9uYW1lcy5hcHBlbmQoImxhYmVscyIpCiAgICBlbHNlOgogICAgICAgIGZlYXR1cmVfbmFtZXMgPSBucC5hcHBlbmQoZmVhdHVyZV9uYW1lcywgImxhYmVscyIpCiAgICBkZiA9IHBkLkRhdGFGcmFtZShkYXRhPXh5LCBjb2x1bW5zPWZlYXR1cmVfbmFtZXMpCgogICAgY29udGV4dC5sb2dfZGF0YXNldChuYW1lIG9yIGRhdGFzZXQsIGRmPWRmLCBmb3JtYXQ9ZmlsZV9leHQsIGluZGV4PUZhbHNlKQo=
     commands: []
-    code_origin: https://github.com/mlrun/functions.git#e16b9e189c60ffa7ed79aeb5a9757b2847f66536:load_dataset.ipynb
+    code_origin: https://github.com/Michaelliv/functions.git#3ccccbd68b8fe2e4501c7a4debd733be15aafd8e:/home/michaell/projects/functions/load_dataset/load_dataset.py
+verbose: false
diff --git a/load_dataset/item.yaml b/load_dataset/item.yaml
@@ -3,7 +3,7 @@ categories:
 - data-source
 - ml
 description: load a toy dataset from scikit-learn
-doc: ''
+doc: README.md
 example: load_dataset.ipynb
 generationDate: 2021-05-19:23-13
 icon: ''
@@ -16,7 +16,7 @@ mlrunVersion: ''
 name: load-dataset
 platformVersion: ''
 spec:
-  filename: ''
+  filename: load_dataset.py
   handler: load_dataset
   image: mlrun/ml-models
   kind: job
diff --git a/load_dataset/load_dataset.ipynb b/load_dataset/load_dataset.ipynb
@@ -1,124 +1,19 @@
 {
  "cells": [
   {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# nuclio: ignore\n",
-    "import nuclio"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "%nuclio config kind = \"job\"\n",
-    "%nuclio config spec.image = \"mlrun/ml-models\""
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Copyright 2018 Iguazio\n",
-    "#\n",
-    "# Licensed under the Apache License, Version 2.0 (the \"License\");\n",
-    "# you may not use this file except in compliance with the License.\n",
-    "# You may obtain a copy of the License at\n",
-    "#\n",
-    "#   http://www.apache.org/licenses/LICENSE-2.0\n",
-    "#\n",
-    "# Unless required by applicable law or agreed to in writing, software\n",
-    "# distributed under the License is distributed on an \"AS IS\" BASIS,\n",
-    "# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n",
-    "# See the License for the specific language governing permissions and\n",
-    "# limitations under the License.\n",
-    "\n",
-    "import numpy as np\n",
-    "import pandas as pd\n",
-    "from mlrun.execution import MLClientCtx\n",
-    "\n",
-    "\n",
-    "def load_dataset(\n",
-    "        context: MLClientCtx,\n",
-    "        dataset: str,\n",
-    "        name: str = '',\n",
-    "        file_ext: str = 'parquet',\n",
-    "        params: dict = {}\n",
-    ") -> None:\n",
-    "    \"\"\"Loads a scikit-learn toy dataset for classification or regression\n",
-    "\n",
-    "    The following datasets are available ('name' : desription):\n",
-    "\n",
-    "        'boston'          : boston house-prices dataset (regression)\n",
-    "        'iris'            : iris dataset (classification)\n",
-    "        'diabetes'        : diabetes dataset (regression)\n",
-    "        'digits'          : digits dataset (classification)\n",
-    "        'linnerud'        : linnerud dataset (multivariate regression)\n",
-    "        'wine'            : wine dataset (classification)\n",
-    "        'breast_cancer'   : breast cancer wisconsin dataset (classification)\n",
-    "\n",
-    "    The scikit-learn functions return a data bunch including the following items:\n",
-    "    - data              the features matrix\n",
-    "    - target            the ground truth labels\n",
-    "    - DESCR             a description of the dataset\n",
-    "    - feature_names     header for data\n",
-    "\n",
-    "    The features (and their names) are stored with the target labels in a DataFrame.\n",
-    "\n",
-    "    For further details see https://scikit-learn.org/stable/datasets/index.html#toy-datasets\n",
-    "\n",
-    "    :param context:    function execution context\n",
-    "    :param dataset:    name of the dataset to load\n",
-    "    :param name:       artifact name (defaults to dataset)\n",
-    "    :param file_ext:   output file_ext: parquet or csv\n",
-    "    :param params:     params of the sklearn load_data method\n",
-    "    \"\"\"\n",
-    "    dataset = str(dataset)\n",
-    "    # reach into module and import the appropriate load_xxx function\n",
-    "    pkg_module = 'sklearn.datasets'\n",
-    "    fname = f'load_{dataset}'\n",
-    "\n",
-    "    pkg_module = __import__(pkg_module, fromlist=[fname])\n",
-    "    load_data_fn = getattr(pkg_module, fname)\n",
-    "\n",
-    "    data = load_data_fn(**params)\n",
-    "    feature_names = data['feature_names']\n",
-    "\n",
-    "    # create the toy dataset\n",
-    "    xy = np.concatenate([data['data'], data['target'].reshape(-1, 1)], axis=1)\n",
-    "    if hasattr(feature_names, 'append'):\n",
-    "        # its a list\n",
-    "        feature_names.append('labels')\n",
-    "    else:\n",
-    "        # its an array\n",
-    "        feature_names = np.append(feature_names, 'labels')\n",
-    "    df = pd.DataFrame(data=xy, columns=feature_names)\n",
-    "\n",
-    "    # log and upload the dataset\n",
-    "    context.log_dataset(name or dataset, df=df, format=file_ext, index=False)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
+   "cell_type": "markdown",
    "source": [
-    "# nuclio: end-code"
-   ]
+    "# Load Dataset"
+   ],
+   "metadata": {
+    "collapsed": false
+   }
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### mlconfig"
+    "## Configuration"
    ]
   },
   {
@@ -127,137 +22,80 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from mlrun import mlconf\n",
     "import os\n",
     "\n",
+    "from mlrun import mlconf\n",
+    "\n",
     "mlconf.dbpath = mlconf.dbpath or 'http://mlrun-api:8080'\n",
-    "mlconf.artifact_path = mlconf.artifact_path or f'{os.environ[\"HOME\"]}/artifacts'"
+    "mlconf.artifact_path = mlconf.artifact_path or f'{os.environ[\"HOME\"]}/artifacts'\n"
    ]
   },
   {
    "cell_type": "markdown",
-   "metadata": {},
    "source": [
-    "### save"
-   ]
+    "## Run Locally"
+   ],
+   "metadata": {
+    "collapsed": false
+   }
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
    "outputs": [],
    "source": [
-    "from mlrun import code_to_function \n",
-    "# create job function object from notebook code\n",
-    "fn = code_to_function(\"load_dataset\")\n",
+    "from mlrun import run_local\n",
+    "from load_dataset import load_dataset\n",
     "\n",
-    "# add metadata (for templates and reuse)\n",
-    "fn.spec.default_handler = \"load_dataset\"\n",
-    "fn.spec.description = \"load a toy dataset from scikit-learn\"\n",
-    "fn.metadata.categories = [\"data-source\", \"ml\"]\n",
-    "fn.metadata.labels = {\"author\": \"yjb\", \"framework\": \"sklearn\"}\n",
-    "fn.export(\"function.yaml\")"
-   ]
+    "for dataset in [\"wine\", \"iris\", \"breast_cancer\"]:\n",
+    "    run_local(\n",
+    "        handler=load_dataset,\n",
+    "        inputs={\"dataset\": dataset},\n",
+    "        artifact_path=mlconf.artifact_path\n",
+    "    )"
+   ],
+   "metadata": {
+    "collapsed": false,
+    "pycharm": {
+     "name": "#%%\n"
+    }
+   }
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## tests"
+    "## Run remotely\n"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
    "outputs": [],
    "source": [
-    "# load function from marketplacen\n",
     "from mlrun import import_function\n",
+    "from mlrun import NewTask\n",
     "\n",
-    "# vcs_branch = 'development'\n",
-    "# base_vcs = f'https://raw.githubusercontent.com/mlrun/functions/{vcs_branch}/'\n",
-    "# mlconf.hub_url = mlconf.hub_url or base_vcs + f'{name}/function.yaml'\n",
-    "# fn = import_function(\"hub://load_dataset\")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "if \"V3IO_HOME\" in list(os.environ):\n",
+    "fn = import_function(\"hub://load_dataset\")\n",
+    "\n",
+    "if \"V3IO_HOME\" in os.environ:\n",
     "    from mlrun import mount_v3io\n",
     "    fn.apply(mount_v3io())\n",
     "else:\n",
     "    # is you set up mlrun using the instructions at https://github.com/mlrun/mlrun/blob/master/hack/local/README.md\n",
     "    from mlrun.platforms import mount_pvc\n",
-    "    fn.apply(mount_pvc('nfsvol', 'nfsvol', '/home/joyan/data'))"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "from mlrun import NewTask    \n",
+    "    fn.apply(mount_pvc('nfsvol', 'nfsvol', '/home/joyan/data'))\n",
+    "\n",
+    "task_params = {\"name\": \"tasks load toy dataset\", \"params\": {\"dataset\": \"wine\"}}\n",
     "\n",
-    "task_params = {\n",
-    "    \"name\"   : \"tasks load toy dataset\", \n",
-    "    \"params\" : {\"dataset\"     : \"wine\"}}"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "### run remotely"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
     "run = fn.run(NewTask(**task_params), artifact_path=mlconf.artifact_path)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "### or locally"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "from mlrun import run_local"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "for dataset in [\"wine\", \"iris\", \"breast_cancer\"]:\n",
-    "    run_local(handler=load_dataset,\n",
-    "              inputs={\"dataset\": dataset}, artifact_path=mlconf.artifact_path)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": []
+   ],
+   "metadata": {
+    "collapsed": false,
+    "pycharm": {
+     "name": "#%%\n"
+    }
+   }
   }
  ],
  "metadata": {
@@ -281,4 +119,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 4
-}
+}
diff --git a/load_dataset/load_dataset.py b/load_dataset/load_dataset.py