📝 Add csv.Sniffer methods

veit · veit · commit 0bbd44d094bf · 2025-01-19T15:24:56.000+01:00
diff --git a/CHANGELOG.rst b/CHANGELOG.rst
@@ -22,6 +22,7 @@ Notfälle, wenn Zweige für ältere Versionen erstellt werden müssen.
 Added
 ~~~~~
 
+* 📝 Add csv.Sniffer methods
 * 📝 Add the removal of git lfs
 
 `24.3.0 <https://github.com/cusyio/Python4DataScience-de/compare/24.2.0...24.3.0>`_: 2024-11-19
diff --git a/docs/data-processing/serialisation-formats/csv/example.ipynb b/docs/data-processing/serialisation-formats/csv/example.ipynb
@@ -1514,7 +1514,7 @@
     {
      "data": {
       "text/plain": [
-       "<pandas.io.parsers.readers.TextFileReader at 0x13295f2d0>"
+       "<pandas.io.parsers.readers.TextFileReader at 0x13442aa10>"
       ]
      },
      "execution_count": 16,
@@ -1745,7 +1745,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "1d72fdfb",
+   "id": "0f9db2a8-7291-4db9-89bc-ef5def432dae",
    "metadata": {},
    "source": [
     "## Arbeiten mit dem csv-Modul von Python\n",
@@ -1756,7 +1756,7 @@
   {
    "cell_type": "code",
    "execution_count": 25,
-   "id": "1207f91c",
+   "id": "d4ed9b30-594c-4e83-a5f2-460b36cb6bab",
    "metadata": {},
    "outputs": [
     {
@@ -1782,6 +1782,57 @@
     "    print(line)"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "0ed726c4-5e09-4676-bcf0-f78e9f7a10e0",
+   "metadata": {},
+   "source": [
+    "Mit [Sniffer.has_header](https://docs.python.org/3/library/csv.html#csv.Sniffer.has_header) wird eure csv-Datei analysiert und gibt ``True`` zurück, wenn die erste Zeile eine Reihe von Spaltenüberschriften zu sein scheint.\n",
+    "\n",
+    "<div class=\"alert alert-block alert-info\">\n",
+    "\n",
+    "**Bemerkung:**\n",
+    "\n",
+    "Diese Methode ist nur eine grobe Heuristik und kann sowohl falsch-positive als auch falsch-negative Ergebnisse liefern.\n",
+    "</div>"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a19c05c1-e947-471b-8089-8e36e65b4268",
+   "metadata": {},
+   "source": [
+    "Auch [Sniffer.sniff](https://docs.python.org/3/library/csv.html#csv.Sniffer.sniff) analysiert eure csv-Datei, gibt aber eine der folgenden Dialekt-Unterklassen zurück."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "id": "263a8cb4-4ae1-46f0-963f-9d2df2de45ed",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "['', 'Titel', 'Sprache', 'Autor*innen', 'Lizenz', 'Veröffentlichungsdatum', 'doi']\n",
+      "['0', 'Python basics', 'en', 'Veit Schiele', '', '2021-10-28', '']\n",
+      "['1', 'Jupyter Tutorial', 'en', 'Veit Schiele', '', '2019-06-27', '']\n",
+      "['2', 'Jupyter Tutorial', 'de', 'Veit Schiele', '', '2020-10-26', '']\n",
+      "['3', 'PyViz Tutorial', 'en', 'Veit Schiele', '', '2020-04-13', '']\n"
+     ]
+    }
+   ],
+   "source": [
+    "with open('out.csv') as f:\n",
+    "    dialect = csv.Sniffer().sniff(f.read(1024))\n",
+    "    f.seek(0)\n",
+    "    reader = csv.reader(f, dialect)\n",
+    "\n",
+    "    for line in reader:\n",
+    "        print(line)"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "e70392b5",
@@ -1791,7 +1842,7 @@
     "\n",
     "csv-Dateien gibt es in vielen verschiedenen Varianten. Das Python csv-Modul kommt bereits mit drei verschiedenen Dialekten:\n",
     "\n",
-    "Parameter | excel | excel-tab | unix\n",
+    "Parameter | [excel](https://docs.python.org/3/library/csv.html#csv.excel) | [excel-tab](https://docs.python.org/3/library/csv.html#csv.excel_tab) | [unix](https://docs.python.org/3/library/csv.html#csv.unix_dialect)\n",
     ":--- | :--- | :--- | :--- \n",
     "`delimiter` | `','` | `'\\t'` | `','` |\n",
     "`quotechar` | `'\"'` | `'\"'` | ` '\"'` |\n",
@@ -1816,7 +1867,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 26,
+   "execution_count": 27,
    "id": "8d765adf",
    "metadata": {},
    "outputs": [],
@@ -1840,7 +1891,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 27,
+   "execution_count": 28,
    "id": "69fff7dd",
    "metadata": {},
    "outputs": [
@@ -1873,7 +1924,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 28,
+   "execution_count": 29,
    "id": "e9c0a9c2",
    "metadata": {},
    "outputs": [
@@ -1898,7 +1949,7 @@
        " 'doi': ('', '', '', '')}"
       ]
      },
-     "execution_count": 28,
+     "execution_count": 29,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -1923,7 +1974,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 29,
+   "execution_count": 30,
    "id": "5a43af52",
    "metadata": {},
    "outputs": [],
@@ -1937,7 +1988,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 30,
+   "execution_count": 31,
    "id": "a65c4cef",
    "metadata": {},
    "outputs": [
@@ -1949,7 +2000,7 @@
        " '2,Jupyter Tutorial,en,Veit Schiele\\n']"
       ]
      },
-     "execution_count": 30,
+     "execution_count": 31,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -1975,7 +2026,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.11.4"
+   "version": "3.11.10"
   },
   "widgets": {
    "application/vnd.jupyter.widget-state+json": {