3 месяцев назад · f54f68e0f6
--- a/src/scraper.py
+++ b/src/scraper.py
@@ -44,6 +44,29 @@ class Scraper1688:
 
				             except: continue
			
 
				         return None
			
 
				 
			
 
				+    def _get_chrome_version_main(self):
			
 
				+        """从 Windows 注册表读取本机 Chrome 主版本号（如 145），用于匹配 ChromeDriver，避免版本不一致。"""
			
 
				+        if os.name != "nt":
			
 
				+            return None
			
 
				+        import winreg
			
 
				+        reg_paths = [
			
 
				+            (winreg.HKEY_LOCAL_MACHINE, r"SOFTWARE\Wow6432Node\Microsoft\Windows\CurrentVersion\Uninstall\Google Chrome"),
			
 
				+            (winreg.HKEY_LOCAL_MACHINE, r"SOFTWARE\Microsoft\Windows\CurrentVersion\Uninstall\Google Chrome"),
			
 
				+            (winreg.HKEY_CURRENT_USER, r"SOFTWARE\Microsoft\Windows\CurrentVersion\Uninstall\Google Chrome"),
			
 
				+        ]
			
 
				+        for hkey, subkey in reg_paths:
			
 
				+            for value_name in ("DisplayVersion", "version"):
			
 
				+                try:
			
 
				+                    with winreg.OpenKey(hkey, subkey) as key:
			
 
				+                        ver, _ = winreg.QueryValueEx(key, value_name)
			
 
				+                        if ver:
			
 
				+                            main = int(str(ver).split(".")[0])
			
 
				+                            if 80 <= main <= 200:
			
 
				+                                return main
			
 
				+                except Exception:
			
 
				+                    continue
			
 
				+        return None
			
 
				+
			
 
				     def _cleanup(self):
			
 
				         if os.name == 'nt':
			
 
				             for proc in ['chrome.exe', 'chromedriver.exe']:
			
@@ -58,6 +81,7 @@ class Scraper1688:
 
				 
			
 
				     def _init_chrome(self, headless):
			
 
				         chrome_path = self._find_chrome()
			
 
				+        version_main = self._get_chrome_version_main()
			
 
				         def create_options():
			
 
				             opts = uc.ChromeOptions()
			
 
				             opts.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36')
			
@@ -69,12 +93,16 @@ class Scraper1688:
 
				             opts.add_argument("--disable-dev-shm-usage")
			
 
				             opts.add_argument("--remote-allow-origins=*")
			
 
				             return opts
			
 
				+        kwargs = {"options": create_options(), "headless": headless, "use_subprocess": True}
			
 
				+        if version_main is not None:
			
 
				+            kwargs["version_main"] = version_main
			
 
				+        if chrome_path:
			
 
				+            kwargs["browser_executable_path"] = chrome_path
			
 
				         try:
			
 
				-            self.driver = uc.Chrome(options=create_options(), headless=headless, browser_executable_path=chrome_path, use_subprocess=True)
			
 
				-            # self.driver = uc.Chrome(options=create_options(), headless=headless, browser_executable_path=chrome_path, use_subprocess=True)
			
 
				-        except :
			
 
				-        # except Exception:
			
 
				-            self.driver = uc.Chrome(options=create_options(), headless=headless, use_subprocess=True)
			
 
				+            self.driver = uc.Chrome(**kwargs)
			
 
				+        except Exception:
			
 
				+            kwargs.pop("version_main", None)
			
 
				+            self.driver = uc.Chrome(**kwargs)
			
 
				 
			
 
				     def clean_url(self, url):
			
 
				         if not url: return ""
			
@@ -111,14 +139,14 @@ class Scraper1688:
 
				             self.driver.get(f"{base_url}&beginPage={page}&page={page}")
			
 
				             self.check_for_captcha()
			
 
				             
			
 
				-            # --- 关键：脉冲式分段滚动，强制触发懒加载 ---
			
 
				-            for i in range(1, 16):
			
 
				-                self.driver.execute_script(f"window.scrollTo(0, document.body.scrollHeight * {i/15});")
			
 
				-                time.sleep(random.uniform(1.2, 2.5))
			
 
				-                if i % 4 == 0:
			
 
				-                    self.driver.execute_script(f"window.scrollBy(0, -400);")
			
 
				-                    time.sleep(1.0)
			
 
				-            time.sleep(random.uniform(3, 6))
			
 
				+            # --- 脉冲式分段滚动触发懒加载（已压缩等待，兼顾速度与加载）---
			
 
				+            for i in range(1, 9):
			
 
				+                self.driver.execute_script(f"window.scrollTo(0, document.body.scrollHeight * {i/8});")
			
 
				+                time.sleep(random.uniform(0.35, 0.85))
			
 
				+                if i % 3 == 0:
			
 
				+                    self.driver.execute_script("window.scrollBy(0, -300);")
			
 
				+                    time.sleep(0.4)
			
 
				+            time.sleep(random.uniform(1.2, 2.8))
			
 
				 
			
 
				             page_results = self._extract_all_methods()
			
 
				             print(f"  [+] 本页解析完成：共发现 {len(page_results)} 个商品链接")
			
@@ -146,13 +174,13 @@ class Scraper1688:
 
				                         yield page_batch
			
 
				                         page_batch = []
			
 
				                     
			
 
				-                    time.sleep(random.uniform(40, 80)) 
			
 
				+                    time.sleep(random.uniform(15, 35))
			
 
				                     if len(all_links) >= total_count + initial_count: break
			
 
				             
			
 
				             if page_batch: yield page_batch
			
 
				             page += 1
			
 
				             self.driver.get("https://www.1688.com")
			
 
				-            time.sleep(60)
			
 
				+            time.sleep(random.uniform(18, 38))
			
 
				         return list(all_links)
			
 
				 
			
 
				     def scrape_detail(self, url):
			
@@ -171,7 +199,7 @@ class Scraper1688:
 
				                 for btn in expand_btns:
			
 
				                     if btn.is_displayed():
			
 
				                         self.driver.execute_script("arguments[0].click();", btn)
			
 
				-                        time.sleep(1.5)
			
 
				+                        time.sleep(0.6)
			
 
				             except: pass
			
 
				 
			
 
				             self.check_for_captcha()