adobe · LeChef318 · Sep 23, 2025 · Aug 14, 2025 · Aug 14, 2025 · Aug 14, 2025
diff --git a/src/metatags/handler.js b/src/metatags/handler.js
@@ -13,13 +13,12 @@
 import RUMAPIClient from '@adobe/spacecat-shared-rum-api-client';
 import { Audit } from '@adobe/spacecat-shared-data-access';
 import { calculateCPCValue } from '../support/utils.js';
-import { getObjectFromKey, getObjectKeysUsingPrefix } from '../utils/s3-utils.js';
+import { getObjectFromKey } from '../utils/s3-utils.js';
 import SeoChecks from './seo-checks.js';
 import { AuditBuilder } from '../common/audit-builder.js';
 import { wwwUrlResolver } from '../common/index.js';
 import metatagsAutoSuggest from './metatags-auto-suggest.js';
 import { convertToOpportunity } from '../common/opportunity.js';
-import { getTopPagesForSiteId } from '../canonical/handler.js';
 import { getIssueRanking, getBaseUrl } from './opportunity-utils.js';
 import {
   DESCRIPTION,
@@ -90,7 +89,7 @@ export async function opportunityAndSuggestions(finalUrl, auditData, context) {
   log.info(`Successfully synced Opportunity And Suggestions for site: ${auditData.siteId} and ${auditType} audit type.`);
 }
 
-export async function fetchAndProcessPageObject(s3Client, bucketName, key, prefix, log) {
+export async function fetchAndProcessPageObject(s3Client, bucketName, url, key, log) {
   const object = await getObjectFromKey(s3Client, bucketName, key, log);
   if (!object?.scrapeResult?.tags || typeof object.scrapeResult.tags !== 'object') {
     log.error(`No Scraped tags found in S3 ${key} object`);
@@ -102,12 +101,9 @@ export async function fetchAndProcessPageObject(s3Client, bucketName, key, prefi
     return null;
   }
 
-  let pageUrl = object.finalUrl ? new URL(object.finalUrl).pathname
-    : key.slice(prefix.length - 1).replace('/scrape.json', ''); // Remove the prefix and scrape.json suffix
+  const pageUrl = object.finalUrl ? new URL(object.finalUrl).pathname
+    : new URL(url).pathname;
   // handling for homepage
-  if (pageUrl === '') {
-    pageUrl = '/';
-  }
   return {
     [pageUrl]: {
       title: object.scrapeResult.tags.title,
@@ -206,24 +202,21 @@ async function calculateProjectedTraffic(context, site, detectedTags, log) {
   }
 }
 
-export async function metatagsAutoDetect(site, pagesSet, context) {
+export async function metatagsAutoDetect(site, pagesMap, context) {
   const { log, s3Client } = context;
   // Fetch site's scraped content from S3
   const bucketName = context.env.S3_SCRAPER_BUCKET_NAME;
-  const prefix = `scrapes/${site.getId()}/`;
-  const scrapedObjectKeys = await getObjectKeysUsingPrefix(s3Client, bucketName, prefix, log);
   const extractedTags = {};
-  const pageMetadataResults = await Promise.all(scrapedObjectKeys
-    .filter((key) => pagesSet.has(key))
-    .map((key) => fetchAndProcessPageObject(s3Client, bucketName, key, prefix, log)));
+  const pageMetadataResults = await Promise.all([...pagesMap]
+    .map(([url, path]) => fetchAndProcessPageObject(s3Client, bucketName, url, path, log)));
   pageMetadataResults.forEach((pageMetadata) => {
     if (pageMetadata) {
       Object.assign(extractedTags, pageMetadata);
     }
   });
   const extractedTagsCount = Object.entries(extractedTags).length;
   if (extractedTagsCount === 0) {
-    log.error(`Failed to extract tags from scraped content for bucket ${bucketName} and prefix ${prefix}`);
+    log.error(`Failed to extract tags from scraped content for bucket ${bucketName}`);
   }
 
   // Perform SEO checks
@@ -242,38 +235,16 @@ export async function metatagsAutoDetect(site, pagesSet, context) {
   };
 }
 
-/**
- * Transforms a URL into a scrape.json path for a given site
- * @param {string} url - The URL to transform
- * @param {string} siteId - The site ID
- * @returns {string} The path to the scrape.json file
- */
-function getScrapeJsonPath(url, siteId) {
-  const pathname = new URL(url).pathname.replace(/\/$/, '');
-  return `scrapes/${siteId}${pathname}/scrape.json`;
-}
-
 export async function runAuditAndGenerateSuggestions(context) {
   const {
-    site, audit, finalUrl, log, dataAccess,
+    site, audit, finalUrl, log, scrapeResultPaths,
   } = context;
-  // Get top pages for a site
-  const siteId = site.getId();
-  const topPages = await getTopPagesForSiteId(dataAccess, siteId, context, log);
-  const includedURLs = await site?.getConfig()?.getIncludedURLs('meta-tags') || [];
-
-  // Transform URLs into scrape.json paths and combine them into a Set
-  const topPagePaths = topPages.map((page) => getScrapeJsonPath(page.url, siteId));
-  const includedUrlPaths = includedURLs.map((url) => getScrapeJsonPath(url, siteId));
-  const totalPagesSet = new Set([...topPagePaths, ...includedUrlPaths]);
-
-  log.info(`Received topPages: ${topPagePaths.length}, includedURLs: ${includedUrlPaths.length}, totalPages to process after removing duplicates: ${totalPagesSet.size}`);
-
+  log.info(scrapeResultPaths);
   const {
     seoChecks,
     detectedTags,
     extractedTags,
-  } = await metatagsAutoDetect(site, totalPagesSet, context);
+  } = await metatagsAutoDetect(site, scrapeResultPaths, context);
 
   // Calculate projected traffic lost
   const {
@@ -355,6 +326,6 @@ export async function submitForScraping(context) {
 export default new AuditBuilder()
   .withUrlResolver((site) => site.getBaseURL())
   .addStep('submit-for-import-top-pages', importTopPages, AUDIT_STEP_DESTINATIONS.IMPORT_WORKER)
-  .addStep('submit-for-scraping', submitForScraping, AUDIT_STEP_DESTINATIONS.CONTENT_SCRAPER)
+  .addStep('submit-for-scraping', submitForScraping, AUDIT_STEP_DESTINATIONS.SCRAPE_CLIENT)
   .addStep('run-audit-and-generate-suggestions', runAuditAndGenerateSuggestions)
   .build();
diff --git a/src/preflight/metatags.js b/src/preflight/metatags.js
@@ -27,7 +27,6 @@ export default async function metatags(context, auditContext) {
     step,
     audits,
     auditsResult,
-    s3Keys,
     timeExecutionBreakdown,
   } = auditContext;
   if (!checks || checks.includes(PREFLIGHT_METATAGS)) {
@@ -39,11 +38,19 @@ export default async function metatags(context, auditContext) {
       pageResult.audits.push({ name: PREFLIGHT_METATAGS, type: 'seo', opportunities: [] });
     });
 
+    // Workaround for the updated meta-tags audit which requires a map of URL to S3 key
+    // TODO: change as soon as preflight is migrated to the ScrapeClient
+    const pageMap = new Map(previewUrls.map((url) => {
+      const s3Key = `scrapes/${site.getId()}${new URL(url).pathname.replace(/\/$/, '')}/scrape.json`;
+      return [url, s3Key];
+    }));
+    log.info('[preflight-audit] Starting meta tags audit with new scraper data format');
+
     const {
       seoChecks,
       detectedTags,
       extractedTags,
-    } = await metatagsAutoDetect(site, s3Keys, context);
+    } = await metatagsAutoDetect(site, pageMap, context);
     try {
       const tagCollection = step === 'suggest'
         ? await metatagsAutoSuggest({

diff --git a/test/audits/metatags.test.js b/test/audits/metatags.test.js
@@ -364,8 +364,8 @@ describe('Meta Tags', () => {
         const result = await fetchAndProcessPageObject(
           s3ClientStub,
           'test-bucket',
+          'www.test-site.com/page1',
           'scrapes/site-id/page1/scrape.json',
-          'scrapes/site-id/',
           logStub,
         );
 
@@ -401,8 +401,8 @@ describe('Meta Tags', () => {
         const result = await fetchAndProcessPageObject(
           s3ClientStub,
           'test-bucket',
+          'https://www.test-site.com',
           'scrapes/site-id/scrape.json',
-          'scrapes/site-id/',
           logStub,
         );
 
@@ -427,8 +427,8 @@ describe('Meta Tags', () => {
         const result = await fetchAndProcessPageObject(
           s3ClientStub,
           'test-bucket',
+          'https://www.test-site.com/page1',
           'scrapes/site-id/page1/scrape.json',
-          'scrapes/site-id/',
           logStub,
         );
 
@@ -461,8 +461,8 @@ describe('Meta Tags', () => {
         const result = await fetchAndProcessPageObject(
           s3ClientStub,
           'test-bucket',
+          'https://www.test-site.com/404',
           'scrapes/site-id/404/scrape.json',
-          'scrapes/site-id/',
           logStub,
         );
 
@@ -495,8 +495,8 @@ describe('Meta Tags', () => {
         const result = await fetchAndProcessPageObject(
           s3ClientStub,
           'test-bucket',
+          'https://www.test-site.com/valid-page',
           'scrapes/site-id/valid-page/scrape.json',
-          'scrapes/site-id/',
           logStub,
         );
 
@@ -1062,6 +1062,13 @@ describe('Meta Tags', () => {
           ContentType: 'application/json',
         };
 
+        const scrapeResultPaths = new Map([
+          ['https://www.test-site.com/blog/page1', 'scrapes/site-id/blog/page1/scrape.json'],
+          ['https://www.test-site.com/blog/page2', 'scrapes/site-id/blog/page2/scrape.json'],
+          ['https://www.test-site.com/blog/page3', 'scrapes/site-id/blog/page3/scrape.json'],
+          ['https://www.test-site.com/', 'scrapes/site-id/scrape.json'],
+        ]);
+
         // Setup S3 client responses
         s3ClientStub.send = sinon.stub();
         s3ClientStub.send
@@ -1106,6 +1113,7 @@ describe('Meta Tags', () => {
           env: {
             S3_SCRAPER_BUCKET_NAME: 'test-bucket',
           },
+          scrapeResultPaths,
         };
       });
 
@@ -1114,42 +1122,57 @@ describe('Meta Tags', () => {
       });
 
       it('should successfully run audit and generate suggestions', async () => {
-        const mockGetRUMDomainkey = sinon.stub().resolves('mockedDomainKey');
-        const mockCalculateCPCValue = sinon.stub().resolves(5000);
+        const mockGetRUMDomainkey = sinon.stub()
+          .resolves('mockedDomainKey');
+        const mockCalculateCPCValue = sinon.stub()
+          .resolves(5000);
         const auditStub = await esmock('../../src/metatags/handler.js', {
-          '../../src/support/utils.js': { getRUMDomainkey: mockGetRUMDomainkey, calculateCPCValue: mockCalculateCPCValue },
+          '../../src/support/utils.js': {
+            getRUMDomainkey: mockGetRUMDomainkey,
+            calculateCPCValue: mockCalculateCPCValue,
+          },
           '@adobe/spacecat-shared-rum-api-client': RUMAPIClientStub,
           '../../src/common/index.js': { wwwUrlResolver: (siteObj) => siteObj.getBaseURL() },
-          '../../src/metatags/metatags-auto-suggest.js': sinon.stub().resolves({
-            '/blog/page1': {
-              title: {
-                aiSuggestion: 'AI Suggested Title 1',
-                aiRationale: 'AI Rationale 1',
+          '../../src/metatags/metatags-auto-suggest.js': sinon.stub()
+            .resolves({
+              '/blog/page1': {
+                title: {
+                  aiSuggestion: 'AI Suggested Title 1',
+                  aiRationale: 'AI Rationale 1',
+                },
               },
-            },
-            '/blog/page2': {
-              title: {
-                aiSuggestion: 'AI Suggested Title 2',
-                aiRationale: 'AI Rationale 2',
+              '/blog/page2': {
+                title: {
+                  aiSuggestion: 'AI Suggested Title 2',
+                  aiRationale: 'AI Rationale 2',
+                },
               },
-            },
-          }),
+            }),
         });
         const result = await auditStub.runAuditAndGenerateSuggestions(context);
 
-        expect(result).to.deep.equal({ status: 'complete' });
+        expect(result)
+          .to
+          .deep
+          .equal({ status: 'complete' });
         expect(s3ClientStub.send).to.have.been.called;
         expect(metatagsOppty.save).to.have.been.called;
       });
 
       it('should handle case when no tags are extracted', async () => {
-        const mockGetRUMDomainkey = sinon.stub().resolves('mockedDomainKey');
-        const mockCalculateCPCValue = sinon.stub().resolves(2);
+        const mockGetRUMDomainkey = sinon.stub()
+          .resolves('mockedDomainKey');
+        const mockCalculateCPCValue = sinon.stub()
+          .resolves(2);
         const auditStub = await esmock('../../src/metatags/handler.js', {
-          '../../src/support/utils.js': { getRUMDomainkey: mockGetRUMDomainkey, calculateCPCValue: mockCalculateCPCValue },
+          '../../src/support/utils.js': {
+            getRUMDomainkey: mockGetRUMDomainkey,
+            calculateCPCValue: mockCalculateCPCValue,
+          },
           '@adobe/spacecat-shared-rum-api-client': RUMAPIClientStub,
           '../../src/common/index.js': { wwwUrlResolver: (siteObj) => siteObj.getBaseURL() },
-          '../../src/metatags/metatags-auto-suggest.js': sinon.stub().resolves({}),
+          '../../src/metatags/metatags-auto-suggest.js': sinon.stub()
+            .resolves({}),
         });
 
         // Override all S3 responses to have null tags
@@ -1168,27 +1191,55 @@ describe('Meta Tags', () => {
 
         const result = await auditStub.runAuditAndGenerateSuggestions(context);
 
-        expect(result).to.deep.equal({ status: 'complete' });
-        expect(logStub.error).to.have.been.calledWith('No Scraped tags found in S3 scrapes/site-id/blog/page3/scrape.json object');
-        expect(logStub.error).to.have.been.calledWith('Failed to extract tags from scraped content for bucket test-bucket and prefix scrapes/site-id/');
-      }).timeout(10000);
+        expect(result)
+          .to
+          .deep
+          .equal({ status: 'complete' });
+        expect(logStub.error)
+          .to
+          .have
+          .been
+          .calledWith('No Scraped tags found in S3 scrapes/site-id/blog/page3/scrape.json object');
+        expect(logStub.error)
+          .to
+          .have
+          .been
+          .calledWith('Failed to extract tags from scraped content for bucket test-bucket');
+      })
+        .timeout(10000);
 
       it('should handle RUM API errors gracefully', async () => {
-        const mockGetRUMDomainkey = sinon.stub().resolves('mockedDomainKey');
-        const mockCalculateCPCValue = sinon.stub().resolves(2);
+        const mockGetRUMDomainkey = sinon.stub()
+          .resolves('mockedDomainKey');
+        const mockCalculateCPCValue = sinon.stub()
+          .resolves(2);
         const auditStub = await esmock('../../src/metatags/handler.js', {
-          '../../src/support/utils.js': { getRUMDomainkey: mockGetRUMDomainkey, calculateCPCValue: mockCalculateCPCValue },
+          '../../src/support/utils.js': {
+            getRUMDomainkey:
+            mockGetRUMDomainkey,
+            calculateCPCValue: mockCalculateCPCValue,
+          },
           '@adobe/spacecat-shared-rum-api-client': RUMAPIClientStub,
           '../../src/common/index.js': { wwwUrlResolver: (siteObj) => siteObj.getBaseURL() },
-          '../../src/metatags/metatags-auto-suggest.js': sinon.stub().resolves({}),
+          '../../src/metatags/metatags-auto-suggest.js': sinon.stub()
+            .resolves({}),
         });
         // Override RUM API response to simulate error
-        RUMAPIClientStub.createFrom().query.rejects(new Error('RUM API Error'));
+        RUMAPIClientStub.createFrom()
+          .query
+          .rejects(new Error('RUM API Error'));
 
         const result = await auditStub.runAuditAndGenerateSuggestions(context);
 
-        expect(result).to.deep.equal({ status: 'complete' });
-        expect(logStub.warn).to.have.been.calledWith('Error while calculating projected traffic for site-id', sinon.match.instanceOf(Error));
+        expect(result)
+          .to
+          .deep
+          .equal({ status: 'complete' });
+        expect(logStub.warn)
+          .to
+          .have
+          .been
+          .calledWith('Error while calculating projected traffic for site-id', sinon.match.instanceOf(Error));
       });
 
       it('should submit top pages for scraping when getIncludedURLs returns null', async () => {
@@ -1199,7 +1250,11 @@ describe('Meta Tags', () => {
         });
         context.site.getConfig = getConfigStub;
         const auditStub = await esmock('../../src/metatags/handler.js', {
-          '../../src/support/utils.js': { getRUMDomainkey: mockGetRUMDomainkey, calculateCPCValue: mockCalculateCPCValue },
+          '../../src/support/utils.js': {
+            getRUMDomainkey:
+            mockGetRUMDomainkey,
+            calculateCPCValue: mockCalculateCPCValue,
+          },
           '@adobe/spacecat-shared-rum-api-client': RUMAPIClientStub,
           '../../src/common/index.js': { wwwUrlResolver: (siteObj) => siteObj.getBaseURL() },
           '../../src/metatags/metatags-auto-suggest.js': sinon.stub().resolves({}),