archi-physics · nausikt · Mar 22, 2026 · Mar 22, 2026 · Mar 22, 2026 · Mar 22, 2026
diff --git a/examples/deployments/basic-scraping/config.yaml b/examples/deployments/basic-scraping/config.yaml
@@ -0,0 +1,98 @@
+# Basic configuration file for a Archi deployment
+# with a chat app interface, agent, and
+# PostgreSQL with pgvector for document storage.
+# The LLM is used through an existing Ollama server.
+#
+# run with:
+# archi create --name my-archi-scraping --config examples/deployments/basic-scraping/config.yaml --services chatbot --hostmode 
+
+# Deployment example for CERN data sources:
+# Twiki (with optional SSO) + public links + Git repos
+#
+# Required env vars for SSO:
+#   SSO_USERNAME=xxx SSO_PASSWORD=yyy
+
+name: my_archi
+
+services:
+  data_manager:
+    port: 7872
+  chat_app:
+    agent_class: CMSCompOpsAgent
+    agents_dir: examples/agents
+    default_provider: local
+    default_model: qwen3:32b
+    providers:
+      local:
+        enabled: true
+        base_url: http://submit76.mit.edu:7870 # make sure this matches your ollama server URL!
+        mode: ollama
+        default_model: "qwen3:32b" # make sure this matches a model you have downloaded locally with ollama
+        models:
+          - "qwen3:32b"
+    trained_on: "My data"
+    port: 7868
+    external_port: 7868
+  vectorstore:
+    backend: postgres # PostgreSQL with pgvector (only supported backend)
+
+data_manager:
+  embedding_name: HuggingFaceEmbeddings
+  sources:
+    web:
+      link:
+        urls:
+          - https://ppc.mit.edu/news/
+        max_depth: 2
+        max_pages: 100
+        delay: 10
+        markitdown: true
+        input_lists:
+          - examples/deployments/basic-scraping/miscellanea.list
+      twiki:
+        auth_provider_name: cern_sso   # remove if crawling public pages only
+        anonymize_data: true
+        urls: # as of now, if we have sso-proteccted twiki, please put it first for efficiency and robustness.
+          - https://twiki.cern.ch/twiki/bin/view/CMS/HeavyIons # sso-protected twiki pages.
+          - https://twiki.cern.ch/twiki/bin/view/CMSPublic/SWGuide # public twiki seed urls.
+        allow:
+          - ".*CRAB3.*"
+          - ".*SWGuide.*"
+          - ".*WorkBook.*"
+          - ".*Crab.*"
+          - ".*Crab3.*"
+          # Crawled all possible HeavyIons + a little bit of CRAB
+          # - ".*HeavyIons.*" 
+          # - ".*HICollisions.*"
+          # - ".*HIRel.*"
+        deny:
+          - ".*WorkBook.*"
+        max_depth: 2
+        max_pages: 1000
+        anonymize_data: true
+        markitdown: true
+        delay: 60
+      discourse: # we should get approximately 500/800++ anonymized markdown discussions.
+        auth_provider_name: cern_sso
+        base_url: https://cms-talk.web.cern.ch
+        delay: 10
+        max_pages: 1000
+        anonymize_data: true
+        markitdown: true
+        category_paths:
+          - /c/offcomp/comptools/87
+          # - /c/offcomp/ais/150
+        keywords:
+          - "Stefano Belforte"
+          - "Katy Ellis"
+          - "Krittin Phornsiricharoenphant"
+          - "Vijay Chakravarty"
+          - "Dario Mapelli"
+          - "Thanayut Seethongchuen"
+    git:
+      urls:
+        - https://github.com/dmwm/CRABServer
+        - https://github.com/dmwm/CRABClient
+  utils:
+    anonymizer:
+      nlp_model: en_core_web_sm
diff --git a/examples/deployments/basic-scraping/miscellanea.list b/examples/deployments/basic-scraping/miscellanea.list
@@ -0,0 +1,49 @@
+# PPC
+https://ppc.mit.edu/blog/2016/05/08/hello-world/
+https://ppc.mit.edu/
+https://ppc.mit.edu/christoph-paus/
+https://ppc.mit.edu/dmytro-kovalskyi/
+https://ppc.mit.edu/gomez-ceballos/
+https://ppc.mit.edu/blog/2024/11/23/lhc-finishes-a-record-year/
+https://ppc.mit.edu/blog/2024/12/02/felicidades-cecilia/
+https://ppc.mit.edu/blog/2015/05/21/clipboard/
+https://ppc.mit.edu/blog/2025/01/12/published-first-diboson-paper-using-run-3-lhc-data/
+https://ppc.mit.edu/blog/2025/01/23/student-fcc-workshop-at-mit-v3-2025/
+https://ppc.mit.edu/blog/2025/01/23/new-chill-in-middleton/
+https://ppc.mit.edu/blog/2025/01/24/first-linux-server-installation-for-david-and-pietro/
+https://ppc.mit.edu/blog/2025/01/26/from-cern-to-mit-for-the-fcc-workshop/
+https://ppc.mit.edu/publications/
+https://ppc.mit.edu/blog/2025/02/08/detailed-schedule-for-the-european-strategy/
+https://ppc.mit.edu/blog/2025/02/14/first-cms-week-in-2025/
+https://ppc.mit.edu/blog/2025/02/18/exploring-the-higgs-boson-in-our-latest-result/
+https://ppc.mit.edu/blog/2025/02/04/news-from-the-chamonix-meeting/
+https://ppc.mit.edu/blog/2025/02/11/cms-data-archival-at-mit/
+https://ppc.mit.edu/blog/2025/03/28/cern-gets-support-from-canada/
+https://ppc.mit.edu/blog/2025/04/08/breakthrough-prize-in-physics-2025/
+https://ppc.mit.edu/blog/2025/04/04/the-fcc-at-cern-a-feasibly-circular-collider/
+https://ppc.mit.edu/blog/2025/04/08/cleo-reached-magic-issue-number-5000/
+https://ppc.mit.edu/blog/2025/04/14/maximizing-cms-competitive-advantage/
+https://ppc.mit.edu/blog/2025/04/25/sueps-at-aps-march-april-meeting/
+https://ppc.mit.edu/blog/2025/04/18/round-three/
+https://ppc.mit.edu/blog/2025/04/14/first-beams-with-a-splash-in-2025/
+https://ppc.mit.edu/blog/2025/05/27/fcc-weak-in-vienna-building-our-future/
+https://ppc.mit.edu/blog/2025/06/04/new-paper-on-arxiv-submit-a-physics-analysis-facility-at-mit/
+https://ppc.mit.edu/blog/2025/06/16/summer-cms-week-2025/
+https://ppc.mit.edu/blog/2025/05/05/cms-records-first-2025-high-energy-collisions/
+https://ppc.mit.edu/blog/2025/06/17/long-term-vision-for-particle-physics-from-the-national-academies/
+https://ppc.mit.edu/blog/2025/06/20/conclusion-of-junes-cern-council-session-has-major-consequences-for-cms/
+https://ppc.mit.edu/blog/2025/06/20/highest-pileup-recorded-at-cms-last-night/
+https://ppc.mit.edu/blog/2025/06/25/selfie-station-at-wilson-hall/
+https://ppc.mit.edu/mariarosaria-dalfonso/
+https://ppc.mit.edu/kenneth-long-2/
+https://ppc.mit.edu/blog/2025/06/27/open-symposium-on-the-european-strategy-for-particle-physics/
+https://ppc.mit.edu/blog/2025/07/03/bridging-physics-and-computing-throughput-computing-2025/
+https://ppc.mit.edu/pietro-lugato-2/
+https://ppc.mit.edu/luca-lavezzo/
+https://ppc.mit.edu/zhangqier-wang-2/
+https://ppc.mit.edu/blog/2025/07/14/welcome-our-first-ever-in-house-masters-student/
+# A2
+https://ppc.mit.edu/a2/
+# Personnel
+https://people.csail.mit.edu/kraska
+https://physics.mit.edu/faculty/christoph-paus
diff --git a/requirements/requirements-base.txt b/requirements/requirements-base.txt
@@ -86,3 +86,6 @@ aiohttp==3.9.5
 nltk==3.9.1
 sentence-transformers==5.1.2
 rank_bm25==0.2.2
+Scrapy==2.14.2
+playwright==1.58.0
+markitdown==0.1.5
diff --git a/scrapy.cfg b/scrapy.cfg
@@ -0,0 +1,2 @@
+[settings]
+default = src.data_manager.collectors.scrapers.settings
diff --git a/src/bin/service_data_manager.py b/src/bin/service_data_manager.py
@@ -74,9 +74,8 @@ def trigger_update() -> None:
 
     schedule_map: Dict[str, Callable[[Optional[str]], None]] = {
         "local_files": lambda last_run=None: data_manager.localfile_manager.schedule_collect_local_files(data_manager.persistence, last_run=last_run),
-        "links": lambda last_run=None: data_manager.scraper_manager.schedule_collect_links(data_manager.persistence, last_run=last_run),
-        "git": lambda last_run=None: data_manager.scraper_manager.schedule_collect_git(data_manager.persistence, last_run=last_run),
-        "sso": lambda last_run=None: data_manager.scraper_manager.schedule_collect_sso(data_manager.persistence, last_run=last_run),
+        "web": lambda last_run=None: data_manager.scraper_manager.schedule_collect(last_run=last_run),
+        "git": lambda last_run=None: data_manager.git_manager.schedule_collect_git(data_manager.persistence, last_run=last_run),
         "jira": lambda last_run=None: data_manager.ticket_manager.schedule_collect_jira(data_manager.persistence, last_run=last_run),
         "redmine": lambda last_run=None: data_manager.ticket_manager.schedule_collect_redmine(data_manager.persistence, last_run=last_run),
     }

diff --git a/src/cli/managers/config_manager.py b/src/cli/managers/config_manager.py
@@ -13,6 +13,8 @@
 
 STATIC_FIELDS = ['global', 'services']
 
+_WEB_TOP_LEVEL_STATIC_KEYS = ["enabled", "visible"]
+
 class ConfigurationManager:
     """Manages archi configuration loading and validation"""
 
@@ -266,10 +268,19 @@ def _collect_input_lists(self) -> None:
         for conf in self.configs:
             data_manager = conf.get('data_manager', {})
             sources_section = data_manager.get('sources', {}) or {}
-            links_section = sources_section.get('links', {}) if isinstance(sources_section, dict) else {}
-            lists = links_section.get('input_lists') or []
-            if isinstance(lists, list):
-                collected.extend(lists)
+            if not isinstance(sources_section, dict):
+                continue
+            web = sources_section.get("web", {}) or {}
+            if not isinstance(web, dict):
+                continue
+            for spider_key, sub in web.items():
+                if spider_key in _WEB_TOP_LEVEL_STATIC_KEYS:
+                    continue
+                if not isinstance(sub, dict):
+                    continue
+                wlists = sub.get("input_lists") or []
+                if isinstance(wlists, list):
+                    collected.extend(wlists)
         self.input_list = sorted(set(collected)) if collected else []
 
     def get_enabled_sources(self) -> List[str]:

diff --git a/src/cli/source_registry.py b/src/cli/source_registry.py
@@ -23,11 +23,9 @@ def __init__(self) -> None:
     def _register_defaults(self) -> None:
         self.register(
             SourceDefinition(
-                name="links",
-                description="Basic HTTP/HTTPS link scraping from input lists",
-                required_config_fields=[
-                    "data_manager.sources.links.input_lists",
-                ],
+                name="web",
+                description="Basic HTTP/HTTPS, Scrapy web sources, seeds from urls and/or input_list",
+                required_config_fields=[],
             )
         )
         self.register(
@@ -36,17 +34,17 @@ def _register_defaults(self) -> None:
                 description="SSO-backed web crawling",
                 required_secrets=["SSO_USERNAME", "SSO_PASSWORD"],
                 required_config_fields=[
-                    "data_manager.sources.links.selenium_scraper.selenium_class",
+                    "data_manager.sources.web",
                 ],
-                depends_on=["links"],
+                depends_on=["web"],
             )
         )
         self.register(
             SourceDefinition(
                 name="git",
-                description="Git repository scraping for MkDocs-based documentation",
-                required_secrets=["GIT_USERNAME", "GIT_TOKEN"],
-                depends_on=["links"],
+                description="Git repository scraping for MkDocs-based documentation, Optional GIT_USERNAME/GIT_TOKEN for private repos.",
+                required_secrets=[],  # was ["GIT_USERNAME", "GIT_TOKEN"]
+                depends_on=[], # no longer depends on links or webs, considered to be standalone manager.
             )
         )
         self.register(

diff --git a/src/cli/templates/base-config.yaml b/src/cli/templates/base-config.yaml
@@ -188,40 +188,72 @@ data_manager:
         {%- for path in paths %}
         - {{ path }}
         {%- endfor %}
-    links:
-      base_source_depth: {{ data_manager.sources.links.base_source_depth | default(1, true) }}
-      max_pages: {{ data_manager.sources.links.max_pages | default(null, true) }}
-      enabled: {{ data_manager.sources.links.enabled | default(true, true) }}
-      visible: {{ data_manager.sources.links.visible | default(true, true) }}
-      schedule: '{{ data_manager.sources.links.schedule | default("", true) }}'
-      input_lists:
-        {%- set link_lists = data_manager.sources.links.input_lists | default([], true) %}
-        {%- for input_list in link_lists %}
-        - {{ input_list }}
-        {%- endfor %}
-      html_scraper:
-        reset_data: {{ data_manager.sources.links.html_scraper.reset_data | default(true, true) }}
-        verify_urls: {{ data_manager.sources.links.html_scraper.verify_urls | default(false, true) }}
-        enable_warnings: {{ data_manager.sources.links.html_scraper.enable_warnings | default(false, true) }}
-      selenium_scraper:
-        enabled: {{ data_manager.sources.links.selenium_scraper.selenium_scraper.enabled | default(false, True) }}
-        visible: {{ data_manager.sources.links.selenium_scraper.selenium_scraper.visible | default(false, true) }}
-        use_for_scraping: {{ data_manager.sources.links.selenium_scraper.use_for_scraping | default(false, true) }}
-        selenium_class: {{  data_manager.sources.links.selenium_scraper.selenium_class | default('CERNSSOScraper', true)  }}
-        selenium_url: {{  data_manager.sources.links.selenium_scraper.selenium_url | default('null', true)  }}
-        selenium_class_map:
-          CERNSSOScraper:
-            class: {{ data_manager.sources.links.selenium_scraper.selenium_class_map.CERNSSOScraper.class | default('CERNSSOScraper', true) }}
-            kwargs:
-              headless:  {{ data_manager.sources.links.selenium_scraper.selenium_class_map.CERNSSOScraper.kwargs.headless | default(true, true) }}
+    web:
+      enabled: {{ data_manager.sources.web.enabled | default(true, true) }}
+      visible: {{ data_manager.sources.web.visible | default(true, true) }}
+      link:
+        enabled: {{ data_manager.sources.web.link.enabled | default(true, true) }}
+        auth_provider_name: {{ data_manager.sources.web.link.auth_provider_name | default("", true) }}
+        schedule: '{{ data_manager.sources.web.link.schedule | default("", true) }}'
+        max_depth: {{ data_manager.sources.web.link.max_depth | default(3, true) }}
+        max_pages: {{ data_manager.sources.web.link.max_pages | default(null, true) }}
+        delay: {{ data_manager.sources.web.link.delay | default(1, true) }}
+        allow: {{ data_manager.sources.web.link.allow | default([], true) | tojson }}
+        deny: {{ data_manager.sources.web.link.deny | default([], true) | tojson }}
+        anonymize_data: {{ data_manager.sources.web.link.anonymize_data | default(false, true) }}
+        markitdown: {{ data_manager.sources.web.link.markitdown | default(false, true) }}
+        input_lists:
+          {%- for l in data_manager.sources.web.link.input_lists | default([], true) %}
+          - {{ l }}
+          {%- endfor %}
+        urls:
+          {%- for u in data_manager.sources.web.link.urls | default([], true) %}
+          - {{ u }}
+          {%- endfor %}
+      twiki:
+        enabled: {{ data_manager.sources.web.twiki.enabled | default(true, true) }}
+        auth_provider_name: {{ data_manager.sources.web.twiki.auth_provider_name | default("", true) }}
+        schedule: '{{ data_manager.sources.web.twiki.schedule | default("", true) }}'
+        max_depth: {{ data_manager.sources.web.twiki.max_depth | default(2, true) }}
+        max_pages: {{ data_manager.sources.web.twiki.max_pages | default(100, true) }}
+        delay: {{ data_manager.sources.web.twiki.delay | default(60, true) }}
+        allow: {{ data_manager.sources.web.twiki.allow | default([], true) | tojson }}
+        deny: {{ data_manager.sources.web.twiki.deny | default([], true) | tojson }}
+        anonymize_data: {{ data_manager.sources.web.discourse.anonymize_data | default(false, true) }}
+        markitdown: {{ data_manager.sources.web.twiki.markitdown | default(false, true) }}
+        input_lists:
+          {%- for list in data_manager.sources.web.twiki.input_lists | default([], true) %}
+          - {{ list }}
+          {%- endfor %}
+        urls:
+          {%- for url in data_manager.sources.web.twiki.urls | default([], true) %}
+          - {{ url }}
+          {%- endfor %}
+      discourse:
+        enabled: {{ data_manager.sources.web.discourse.enabled | default(true, true) }}
+        auth_provider_name: {{ data_manager.sources.web.discourse.auth_provider_name | default("cern_sso", true) }}
+        schedule: '{{ data_manager.sources.web.discourse.schedule | default("", true) }}'
+        max_pages: {{ data_manager.sources.web.discourse.max_pages | default(500, true) }}
+        delay: {{ data_manager.sources.web.discourse.delay | default(10, true) }}
+        anonymize_data: {{ data_manager.sources.web.discourse.anonymize_data | default(false, true) }}
+        markitdown: {{ data_manager.sources.web.discourse.markitdown | default(false, true) }}
+        base_url: {{ data_manager.sources.web.discourse.base_url | default("https://cms-talk.web.cern.ch", true) }}
+        keywords:
+          {%- for keyword in data_manager.sources.web.discourse.keywords | default([], true) %}
+          - {{ keyword }}
+          {%- endfor %}
+        category_paths:
+          {%- for category_path in data_manager.sources.web.discourse.category_paths | default([], true) %}
+          - {{ category_path }}
+          {%- endfor %}
     git:
       enabled: {{ data_manager.sources.git.enabled | default(true, true) }}
       visible: {{ data_manager.sources.git.visible | default(true, true) }}
       schedule: '{{ data_manager.sources.git.schedule | default("", true) }}'
-    sso:
-      enabled: {{ data_manager.sources.sso.enabled | default(true, true) }}
-      visible: {{ data_manager.sources.sso.visible | default(true, true) }}
-      schedule: '{{ data_manager.sources.sso.schedule | default("", true) }}'
+      urls:
+        {%- for u in data_manager.sources.git.urls | default([], true) %}
+        - {{ u }}
+        {%- endfor %}
     jira:
       enabled: {{ data_manager.sources.jira.enabled | default(true, true) }}
       url: {{ data_manager.sources.jira.url | default('', true) }}

diff --git a/src/cli/templates/dockerfiles/Dockerfile-data-manager b/src/cli/templates/dockerfiles/Dockerfile-data-manager
@@ -35,6 +35,10 @@ COPY pyproject.toml pyproject.toml
 COPY weblists weblists
 RUN pip install --upgrade pip && pip install .
 
+# Chromium for Python Playwright (CERN SSO in Scrapy auth middleware).
+RUN python -m playwright install-deps chromium \
+    && python -m playwright install chromium
+
 RUN chmod g+rx /root; chmod -R g+w /root/archi/src/interfaces
 
 ARG APP_VERSION=unknown
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,2 @@
		[settings]
		default = src.data_manager.collectors.scrapers.settings