perf: 爬虫采集流程优化

2025-09-14 05:02:43 +00:00 · 2025-03-14 19:27:46 +08:00
parent 6d0ab33757
commit 85b64bbc10
2 changed files with 6 additions and 1 deletions
--- a/novel-common/src/main/java/com/java2nb/novel/core/utils/HttpUtil.java
+++ b/novel-common/src/main/java/com/java2nb/novel/core/utils/HttpUtil.java
@@ -14,12 +14,13 @@ public class HttpUtil {

    public static String getByHttpClientWithChrome(String url) {
        try {
+            log.debug("Get url：{}", url);
            HttpHeaders headers = new HttpHeaders();
            headers.add("user-agent",
                "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36");
            HttpEntity<String> requestEntity = new HttpEntity<>(null, headers);
            ResponseEntity<String> forEntity = REST_TEMPLATE.exchange(url, HttpMethod.GET, requestEntity, String.class);
-
+            log.debug("Response code：{}", forEntity.getStatusCode());
            if (forEntity.getStatusCode() == HttpStatus.OK) {
                return forEntity.getBody();
            } else {
--- a/novel-crawl/src/main/java/com/java2nb/novel/service/impl/CrawlServiceImpl.java
+++ b/novel-crawl/src/main/java/com/java2nb/novel/service/impl/CrawlServiceImpl.java
@@ -309,6 +309,10 @@ public class CrawlServiceImpl implements CrawlService {
            } catch (Exception e) {
                log.error(e.getMessage(), e);
            }
+            if (page == totalPage) {
+                // 第一遍采集完成，翻到第一页，继续第二次采集，适用于分页数比较少的最近更新列表
+                page = 0;
+            }

            page += 1;
        }