browsertrix-crawler/util/timing.js

import { logger, errJSON } from "./logger.js";

export function sleep(seconds) {
  return new Promise(resolve => setTimeout(resolve, seconds * 1000));
}

export function timedRun(promise, seconds, message="Promise timed out", logDetails={}, context="general") {
  // return Promise return value or log error if timeout is reached first
  const timeout = seconds * 1000;

  const rejectPromiseOnTimeout = (timeout) => {
    return new Promise((resolve, reject) => {
      setTimeout(() => (reject("timeout reached")), timeout);
    });
  };

  return Promise.race([promise, rejectPromiseOnTimeout(timeout)])
    .catch((err) =>  {
      if (err == "timeout reached") {
        logger.error(message, {"seconds": seconds, ...logDetails}, context);
      } else {
        logger.error("Unknown exception", {...errJSON(err), ...logDetails}, context);
      }
    });
}

export function secondsElapsed(startTime, nowDate = null) {
  nowDate = nowDate || new Date();

  return (nowDate.getTime() - startTime) / 1000;
}
Catch loading issues (#255) * various loading improvements to avoid pages getting 'stuck' + load state tracking - add PageState object, store loadstate (0 to 4) as well as other per-page-state properties on defined object. - set loadState to 0 (failed) by default - set loadState to 1 (content-loaded) on 'domcontentloaded' event - if page.goto() finishes, set to loadState to 2 'full-page-load'. - if page.goto() times out, if no domcontentloaded either, fail immediately. if domcontentloaded reached, extract links, but don't run behaviors - page considered 'finished' if it got to at least loadState 2 'full-pageload', even if behaviors timed out - pages: log 'loadState' as part of pages.jsonl - improve frame detection: detect if frame actually not from a frame tag (eg. OBJECT) tag, and skip as well - screencaster: try screencasting every frame for now instead of every other frame, for smoother screencasting - deps: behaviors: bump to browsertrix-behaviors 0.5.0-beta.0 release (includes autoscroll improvements) - workers ids: just use 0, 1, ... n-1 worker indexes, send numeric index as part of screencast messages - worker: only keeps track of crash state to recreate page, decouple crash and page failed/succeeded state - screencaster: allow reusing caster slots with fixed ids - interrupt timedCrawlPage() wait if 'crash' event happens - crawler: pageFinished() callback when page finishes - worker: add workerIdle callback, call screencaster.stopById() and send 'close' message when worker is empty 2023-03-20 18:31:37 -07:00			`import { logger, errJSON } from "./logger.js";`
Add total timeout + limit redis queue retries (#248) * time limits: readd total timeount to runTask() in worker, just in case refactor working runTask() to either return true/false if task was timed out if timed out, recreate the page redis: add limit to retried URLs, currently set to 1 * retry: remove URL if not retrying, log removal of URL from queue 2023-03-13 14:48:04 -07:00
			`export function sleep(seconds) {`
			`return new Promise(resolve => setTimeout(resolve, seconds * 1000));`
			`}`

			`export function timedRun(promise, seconds, message="Promise timed out", logDetails={}, context="general") {`
			`// return Promise return value or log error if timeout is reached first`
			`const timeout = seconds * 1000;`

			`const rejectPromiseOnTimeout = (timeout) => {`
			`return new Promise((resolve, reject) => {`
			`setTimeout(() => (reject("timeout reached")), timeout);`
			`});`
			`};`

			`return Promise.race([promise, rejectPromiseOnTimeout(timeout)])`
Dev 0.9.0 Beta 1 Work - Playwright Removal + Worker Refactor + Redis State (#253) * Migrate from Puppeteer to Playwright! - use playwright persistent browser context to support profiles - move on-new-page setup actions to worker - fix screencaster, init only one per page object, associate with worker-id - fix device emulation: load on startup, also replace '-' with space for more friendly command-line usage - port additional chromium setup options - create / detach cdp per page for each new page, screencaster just uses existing cdp - fix evaluateWithCLI to call CDP command directly - workers directly during WorkerPool - await not necessary * State / Worker Refactor (#252) * refactoring state: - use RedisCrawlState, defaulting to local redis, remove MemoryCrawlState and BaseState - remove 'real' accessors / draining queue - no longer neede without puppeteer-cluster - switch to sorted set for crawl queue, set depth + extraHops as score, (fixes #150) - override console.error to avoid logging ioredis errors (fixes #244) - add MAX_DEPTH as const for extraHops - fix immediate exit on second interrupt * worker/state refactor: - remove job object from puppeteer-cluster - rename shift() -> nextFromQueue() - condense crawl mgmt logic to crawlPageInWorker: init page, mark pages as finished/failed, close page on failure, etc... - screencaster: don't screencast about:blank pages * more worker queue refactor: - remove p-queue - initialize PageWorkers which run in its own loop to process pages, until no pending pages, no queued pages - add setupPage(), teardownPage() to crawler, called from worker - await runWorkers() promise which runs all workers until completion - remove: p-queue, node-fetch, update README (no longer using any puppeteer-cluster base code) - bump to 0.9.0-beta.1 * use existing data object for per-page context, instead of adding things to page (will be more clear with typescript transition) * more fixes for playwright: - fix profile creation - browser: add newWindowPageWithCDP() to create new page + cdp in new window, use with timeout - crawler: various fixes, including for html check - logging: addition logging for screencaster, new window, etc... - remove unused packages --------- Co-authored-by: Tessa Walsh <tessa@bitarchivist.net> 2023-03-17 12:50:32 -07:00			`.catch((err) => {`
			`if (err == "timeout reached") {`
			`logger.error(message, {"seconds": seconds, ...logDetails}, context);`
			`} else {`
Catch loading issues (#255) * various loading improvements to avoid pages getting 'stuck' + load state tracking - add PageState object, store loadstate (0 to 4) as well as other per-page-state properties on defined object. - set loadState to 0 (failed) by default - set loadState to 1 (content-loaded) on 'domcontentloaded' event - if page.goto() finishes, set to loadState to 2 'full-page-load'. - if page.goto() times out, if no domcontentloaded either, fail immediately. if domcontentloaded reached, extract links, but don't run behaviors - page considered 'finished' if it got to at least loadState 2 'full-pageload', even if behaviors timed out - pages: log 'loadState' as part of pages.jsonl - improve frame detection: detect if frame actually not from a frame tag (eg. OBJECT) tag, and skip as well - screencaster: try screencasting every frame for now instead of every other frame, for smoother screencasting - deps: behaviors: bump to browsertrix-behaviors 0.5.0-beta.0 release (includes autoscroll improvements) - workers ids: just use 0, 1, ... n-1 worker indexes, send numeric index as part of screencast messages - worker: only keeps track of crash state to recreate page, decouple crash and page failed/succeeded state - screencaster: allow reusing caster slots with fixed ids - interrupt timedCrawlPage() wait if 'crash' event happens - crawler: pageFinished() callback when page finishes - worker: add workerIdle callback, call screencaster.stopById() and send 'close' message when worker is empty 2023-03-20 18:31:37 -07:00			`logger.error("Unknown exception", {...errJSON(err), ...logDetails}, context);`
Dev 0.9.0 Beta 1 Work - Playwright Removal + Worker Refactor + Redis State (#253) * Migrate from Puppeteer to Playwright! - use playwright persistent browser context to support profiles - move on-new-page setup actions to worker - fix screencaster, init only one per page object, associate with worker-id - fix device emulation: load on startup, also replace '-' with space for more friendly command-line usage - port additional chromium setup options - create / detach cdp per page for each new page, screencaster just uses existing cdp - fix evaluateWithCLI to call CDP command directly - workers directly during WorkerPool - await not necessary * State / Worker Refactor (#252) * refactoring state: - use RedisCrawlState, defaulting to local redis, remove MemoryCrawlState and BaseState - remove 'real' accessors / draining queue - no longer neede without puppeteer-cluster - switch to sorted set for crawl queue, set depth + extraHops as score, (fixes #150) - override console.error to avoid logging ioredis errors (fixes #244) - add MAX_DEPTH as const for extraHops - fix immediate exit on second interrupt * worker/state refactor: - remove job object from puppeteer-cluster - rename shift() -> nextFromQueue() - condense crawl mgmt logic to crawlPageInWorker: init page, mark pages as finished/failed, close page on failure, etc... - screencaster: don't screencast about:blank pages * more worker queue refactor: - remove p-queue - initialize PageWorkers which run in its own loop to process pages, until no pending pages, no queued pages - add setupPage(), teardownPage() to crawler, called from worker - await runWorkers() promise which runs all workers until completion - remove: p-queue, node-fetch, update README (no longer using any puppeteer-cluster base code) - bump to 0.9.0-beta.1 * use existing data object for per-page context, instead of adding things to page (will be more clear with typescript transition) * more fixes for playwright: - fix profile creation - browser: add newWindowPageWithCDP() to create new page + cdp in new window, use with timeout - crawler: various fixes, including for html check - logging: addition logging for screencaster, new window, etc... - remove unused packages --------- Co-authored-by: Tessa Walsh <tessa@bitarchivist.net> 2023-03-17 12:50:32 -07:00			`}`
			`});`
Add total timeout + limit redis queue retries (#248) * time limits: readd total timeount to runTask() in worker, just in case refactor working runTask() to either return true/false if task was timed out if timed out, recreate the page redis: add limit to retried URLs, currently set to 1 * retry: remove URL if not retrying, log removal of URL from queue 2023-03-13 14:48:04 -07:00			`}`

Add option for sleep interval after behaviors run + timing cleanup (#257) * Add --pageExtraDelay option to add extra delay/wait time after every page (fixes #131) * Store total page time in 'maxPageTime', include pageExtraDelay * Rename timeout->pageLoadTimeout * cleanup: - store seconds for most interval checks, convert to ms only for api calls, remove most sec<->ms conversions - add secondsElapsed() utility function to help checking time elapsed - cleanup comments --------- Co-authored-by: Ilya Kreymer <ikreymer@gmail.com> 2023-03-22 14:50:18 -04:00			`export function secondsElapsed(startTime, nowDate = null) {`
			`nowDate = nowDate \|\| new Date();`
Add total timeout + limit redis queue retries (#248) * time limits: readd total timeount to runTask() in worker, just in case refactor working runTask() to either return true/false if task was timed out if timed out, recreate the page redis: add limit to retried URLs, currently set to 1 * retry: remove URL if not retrying, log removal of URL from queue 2023-03-13 14:48:04 -07:00
Add option for sleep interval after behaviors run + timing cleanup (#257) * Add --pageExtraDelay option to add extra delay/wait time after every page (fixes #131) * Store total page time in 'maxPageTime', include pageExtraDelay * Rename timeout->pageLoadTimeout * cleanup: - store seconds for most interval checks, convert to ms only for api calls, remove most sec<->ms conversions - add secondsElapsed() utility function to help checking time elapsed - cleanup comments --------- Co-authored-by: Ilya Kreymer <ikreymer@gmail.com> 2023-03-22 14:50:18 -04:00			`return (nowDate.getTime() - startTime) / 1000;`
			`}`