From 3b05b21ad581b61acd595dd7c84d23c359f19d9a Mon Sep 17 00:00:00 2001
From: CJ Robinson <cjcjcj777@gmail.com>
Date: Fri, 20 Mar 2026 15:02:22 -0400
Subject: [PATCH] new hmong scraper

---
 scrapers/3hmongtv/page_analysis.json |  52 ++-
 scrapers/3hmongtv/scraper.py         | 539 ++++++---------------------
 scrapers/3hmongtv/seed.json          |   2 +-
 3 files changed, 156 insertions(+), 437 deletions(-)
diff --git a/scrapers/3hmongtv/page_analysis.json b/scrapers/3hmongtv/page_analysis.json
index b2bda42..4117118 100644
--- a/scrapers/3hmongtv/page_analysis.json
+++ b/scrapers/3hmongtv/page_analysis.json
@@ -1,12 +1,48 @@
 {
-  "item_selectors": [],
+  "item_selectors": [
+    "a[href^=\"/stories/\"]",
+    ".rounded-lg.border.bg-card"
+  ],
   "next_page_selectors": [],
-  "item_examples": {},
+  "item_examples": {
+    "a[href^=\"/stories/\"]": [
+      "<a href=\"/stories/federal-judge-finds-ice-agents-likely-engaged-in-racial-profiling-during-minnesota-operations\"><div class=\"rounded-lg border bg-card text-card-foreground shadow-sm overflow-hidden h-full hover:shadow-lg transition-shadow duration-300 group\"><div class=\"aspect-video relative overflow-hidden\"><img alt=\"Federal Judge Finds ICE Agents Likely Engaged in Racial Profiling During Minnesota Operations\" class=\"absolute inset-0 w-full h-full object-cover group-hover:scale-105 transition-transform duration-300\" src=\"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABLAAAAKtCAIAAAC42wDnAAAACXBIWXMAAAsTAAALEwEAmpwYAAspNElEQVR4nOz96Y8ke7IlhvkeEZlZVXfrZd7rNzMiHyEBFCAIAgR+0f8PfRIFUCNSIIfkW3u7S1UuEeGrcOzY5h6RVVl37X5T0bfvzYyMcP/5b7VjduxY+T/+w7/M81zYa8H/l6Is5ZfF3yzt3/7r93hfXiUv/vwHnn3fLqDv+RXe9/lS//fc5+Op1w1Y/77qhyuff+YD9m406sfqSf0hemL1gB/uyWeG4KMb8KEb/egNiAukHiiLckEv4xf/wRqw+tU/n7owrr3pUpto+R1/yz7gi2U9BPi3vL8sy+YHbdiL3+cPP/X7v3jDZJ3omMvgWi/afEnbkvy0rFbZkn/An/gFmQHyeXmTf8JlF7zw+dnW92wf4Cf0Z13d5fL8hsQL6n85pfTibAGbwAeSd7Rd+FUnrX5a/s2W51vr+/b2UszyFu+ijdUfl2LBAxUzP2L3TINY+D9pzsovFS8/Tct5nI5Pw/F4ejz25/PQj3jxs1VZVnVtX8W4VVXVtFVTV3VVNk1TVWVVVk1d1k21a+p9W7V4r6hk9MpytqfxJqGx47xM83I6D/fH8Y/fHvtxnJZ5wp9kXHzY7ItlgZbEzpy2YOnrGR/Av8u6Kodh+OLN4T/89vWb13eYgfNcLKNddF6W2Rf2vCzlgi8O0/THt0//+K9fL8tS1+2yVJN8ip8tsd8s/Tidjqd+6OdZulpelc7VpamKXdf+7revfvXFa/QK+gDt5yNwhuO28r95KSZMjWWYp3/6+vi//ud/GcdzWdVL2dgcsP0El7dJKDeUMcEPVVUVxVJVxTyelqK4uXv9f/yPv/p3X+7xUEXFRSSTL/rNtzvOiKqap7H456+H/+V/+/M49HUtY80b68Ppc8oP/DVvlOutUL5pH+dUYYvRgKrEbNnvmtc39e2+bZqKjVlmDAnmNP6zLIuNv0z7eV7maT7103cPw9uH/nzm3JzkT3gV8l+MrE60NDV0ScaBHi97pPwA/hYmdIX5W+k/2K8wlOUyjkNXl7/+/NXf/uZN1zbzPBbFVC6TdLMONL6oY41/8PiYafKXqqyK5eE0/k//+Z//8R//4eZmf/fmy67rpmmSFRxrd5lx02keH969++PX9+e+lxWBTvLFxCXCPuf+URXDPD4uU/nVb//u//Hf/V9+++WrZZ5kiygwHbnZrcYwnYx6nXIusMYxFarq7Xfv/p///f/vD7//Y4PV3srK5wjLpwsMKxfhMIwD1kz96vbmcOjquikxP3VzxF2T2cldUHp8nqaxKsq6rH77my/+/b//7b5pZNXoN2U3lB/CvlofwdoBxYTuqJqmadvd+Xz67//Tf/7v/9//aZ7mptuVZe07c1xApiX/Nc/jNB6n/lhWt//tf/Nf/9..."
+    ],
+    ".rounded-lg.border.bg-card": [
+      "<div class=\"rounded-lg border bg-card text-card-foreground shadow-sm overflow-hidden h-full hover:shadow-lg transition-shadow duration-300 group\"><div class=\"aspect-video relative overflow-hidden\"><img alt=\"Federal Judge Finds ICE Agents Likely Engaged in Racial Profiling During Minnesota Operations\" class=\"absolute inset-0 w-full h-full object-cover group-hover:scale-105 transition-transform duration-300\" src=\"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABLAAAAKtCAIAAAC42wDnAAAACXBIWXMAAAsTAAALEwEAmpwYAAspNElEQVR4nOz96Y8ke7IlhvkeEZlZVXfrZd7rNzMiHyEBFCAIAgR+0f8PfRIFUCNSIIfkW3u7S1UuEeGrcOzY5h6RVVl37X5T0bfvzYyMcP/5b7VjduxY+T/+w7/M81zYa8H/l6Is5ZfF3yzt3/7r93hfXiUv/vwHnn3fLqDv+RXe9/lS//fc5+Op1w1Y/77qhyuff+YD9m406sfqSf0hemL1gB/uyWeG4KMb8KEb/egNiAukHiiLckEv4xf/wRqw+tU/n7owrr3pUpto+R1/yz7gi2U9BPi3vL8sy+YHbdiL3+cPP/X7v3jDZJ3omMvgWi/afEnbkvy0rFbZkn/An/gFmQHyeXmTf8JlF7zw+dnW92wf4Cf0Z13d5fL8hsQL6n85pfTibAGbwAeSd7Rd+FUnrX5a/s2W51vr+/b2UszyFu+ijdUfl2LBAxUzP2L3TINY+D9pzsovFS8/Tct5nI5Pw/F4ejz25/PQj3jxs1VZVnVtX8W4VVXVtFVTV3VVNk1TVWVVVk1d1k21a+p9W7V4r6hk9MpytqfxJqGx47xM83I6D/fH8Y/fHvtxnJZ5wp9kXHzY7ItlgZbEzpy2YOnrGR/Av8u6Kodh+OLN4T/89vWb13eYgfNcLKNddF6W2Rf2vCzlgi8O0/THt0//+K9fL8tS1+2yVJN8ip8tsd8s/Tidjqd+6OdZulpelc7VpamKXdf+7revfvXFa/QK+gDt5yNwhuO28r95KSZMjWWYp3/6+vi//ud/GcdzWdVL2dgcsP0El7dJKDeUMcEPVVUVxVJVxTyelqK4uXv9f/yPv/p3X+7xUEXFRSSTL/rNtzvOiKqap7H456+H/+V/+/M49HUtY80b68Ppc8oP/DVvlOutUL5pH+dUYYvRgKrEbNnvmtc39e2+bZqKjVlmDAnmNP6zLIuNv0z7eV7maT7103cPw9uH/nzm3JzkT3gV8l+MrE60NDV0ScaBHi97pPwA/hYmdIX5W+k/2K8wlOUyjkNXl7/+/NXf/uZN1zbzPBbFVC6TdLMONL6oY41/8PiYafKXqqyK5eE0/k//+Z//8R//4eZmf/fmy67rpmmSFRxrd5lx02keH969++PX9+e+lxWBTvLFxCXCPuf+URXDPD4uU/nVb//u//Hf/V9+++WrZZ5kiygwHbnZrcYwnYx6nXIusMYxFarq7Xfv/p///f/vD7//Y4PV3srK5wjLpwsMKxfhMIwD1kz96vbmcOjquikxP3VzxF2T2cldUHp8nqaxKsq6rH77my/+/b//7b5pZNXoN2U3lB/CvlofwdoBxYTuqJqmadvd+Xz67//Tf/7v/9//aZ7mptuVZe07c1xApiX/Nc/jNB6n/lhWt//tf/Nf/9//r3/fdljAF9bFatLreSFTMG3gxSwdLhN7rsqqw6ttmkaPt6WYpomzuO+Ht9+8/f/+j//7n7/+bhinum6Ksq7r5nB7++WXX/2H/8PftU1zPvXv7u/..."
+    ]
+  },
   "next_page_examples": {},
-  "title_selectors": [],
-  "title_examples": {},
-  "date_selectors": [],
-  "date_examples": {},
-  "url_selectors": [],
-  "url_examples": {}
+  "title_selectors": [
+    "a[href^=\"/stories/\"] h3",
+    "h3.font-semibold"
+  ],
+  "title_examples": {
+    "a[href^=\"/stories/\"] h3": [
+      "<h3 class=\"font-semibold text-lg line-clamp-2 group-hover:text-navy-600 transition-colors\">Federal Judge Finds ICE Agents Likely Engaged in Racial Profiling During Minnesota Operations</h3>"
+    ],
+    "h3.font-semibold": [
+      "<h3 class=\"font-semibold text-lg line-clamp-2 group-hover:text-navy-600 transition-colors\">Federal Judge Finds ICE Agents Likely Engaged in Racial Profiling During Minnesota Operations</h3>"
+    ]
+  },
+  "date_selectors": [
+    "a[href^=\"/stories/\"] .flex.items-center.justify-between span:last-child",
+    ".flex.items-center.justify-between span:last-child"
+  ],
+  "date_examples": {
+    "a[href^=\"/stories/\"] .flex.items-center.justify-between span:last-child": [
+      "<span>March 16, 2026</span>"
+    ],
+    ".flex.items-center.justify-between span:last-child": [
+      "<span>March 16, 2026</span>"
+    ]
+  },
+  "url_selectors": [
+    "a[href^=\"/stories/\"]"
+  ],
+  "url_examples": {
+    "a[href^=\"/stories/\"]": [
+      "<a href=\"/stories/federal-judge-finds-ice-agents-likely-engaged-in-racial-profiling-during-minnesota-operations\"><div class=\"rounded-lg border bg-card text-card-foreground shadow-sm overflow-hidden h-full hover:shadow-lg transition-shadow duration-300 group\"><div class=\"aspect-video relative overflow-hidden\"><img alt=\"Federal Judge Finds ICE Agents Likely Engaged in Racial Profiling During Minnesota Operations\" class=\"absolute inset-0 w-full h-full object-cover group-hover:scale-105 transition-transform duration-300\" src=\"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABLAAAAKtCAIAAAC42wDnAAAACXBIWXMAAAsTAAALEwEAmpwYAAspNElEQVR4nOz96Y8ke7IlhvkeEZlZVXfrZd7rNzMiHyEBFCAIAgR+0f8PfRIFUCNSIIfkW3u7S1UuEeGrcOzY5h6RVVl37X5T0bfvzYyMcP/5b7VjduxY+T/+w7/M81zYa8H/l6Is5ZfF3yzt3/7r93hfXiUv/vwHnn3fLqDv+RXe9/lS//fc5+Op1w1Y/77qhyuff+YD9m406sfqSf0hemL1gB/uyWeG4KMb8KEb/egNiAukHiiLckEv4xf/wRqw+tU/n7owrr3pUpto+R1/yz7gi2U9BPi3vL8sy+YHbdiL3+cPP/X7v3jDZJ3omMvgWi/afEnbkvy0rFbZkn/An/gFmQHyeXmTf8JlF7zw+dnW92wf4Cf0Z13d5fL8hsQL6n85pfTibAGbwAeSd7Rd+FUnrX5a/s2W51vr+/b2UszyFu+ijdUfl2LBAxUzP2L3TINY+D9pzsovFS8/Tct5nI5Pw/F4ejz25/PQj3jxs1VZVnVtX8W4VVXVtFVTV3VVNk1TVWVVVk1d1k21a+p9W7V4r6hk9MpytqfxJqGx47xM83I6D/fH8Y/fHvtxnJZ5wp9kXHzY7ItlgZbEzpy2YOnrGR/Av8u6Kodh+OLN4T/89vWb13eYgfNcLKNddF6W2Rf2vCzlgi8O0/THt0//+K9fL8tS1+2yVJN8ip8tsd8s/Tidjqd+6OdZulpelc7VpamKXdf+7revfvXFa/QK+gDt5yNwhuO28r95KSZMjWWYp3/6+vi//ud/GcdzWdVL2dgcsP0El7dJKDeUMcEPVVUVxVJVxTyelqK4uXv9f/yPv/p3X+7xUEXFRSSTL/rNtzvOiKqap7H456+H/+V/+/M49HUtY80b68Ppc8oP/DVvlOutUL5pH+dUYYvRgKrEbNnvmtc39e2+bZqKjVlmDAnmNP6zLIuNv0z7eV7maT7103cPw9uH/nzm3JzkT3gV8l+MrE60NDV0ScaBHi97pPwA/hYmdIX5W+k/2K8wlOUyjkNXl7/+/NXf/uZN1zbzPBbFVC6TdLMONL6oY41/8PiYafKXqqyK5eE0/k//+Z//8R//4eZmf/fmy67rpmmSFRxrd5lx02keH969++PX9+e+lxWBTvLFxCXCPuf+URXDPD4uU/nVb//u//Hf/V9+++WrZZ5kiygwHbnZrcYwnYx6nXIusMYxFarq7Xfv/p///f/vD7//Y4PV3srK5wjLpwsMKxfhMIwD1kz96vbmcOjquikxP3VzxF2T2cldUHp8nqaxKsq6rH77my/+/b//7b5pZNXoN2U3lB/CvlofwdoBxYTuqJqmadvd+Xz67//Tf/7v/9//aZ7mptuVZe07c1xApiX/Nc/jNB6n/lhWt//tf/Nf/9..."
+    ]
+  }
 }
\ No newline at end of file
diff --git a/scrapers/3hmongtv/scraper.py b/scrapers/3hmongtv/scraper.py
index 4484b7d..dd5e247 100644
--- a/scrapers/3hmongtv/scraper.py
+++ b/scrapers/3hmongtv/scraper.py
@@ -1,122 +1,34 @@
 import json
 import os
-from playwright.async_api import async_playwright, TimeoutError as PlaywrightTimeoutError
+from playwright.async_api import async_playwright
 from playwright_stealth import Stealth  # v2.0.1 API
 from dateutil.parser import parse
 import urllib.parse
 import asyncio
-from typing import List
 
-base_url = 'https://hbctv.net/category/3hmongtv-news/'
+base_url = 'https://hbctv.net/stories'
 
 # Scraper module path for tracking the source of scraped data
 SCRAPER_MODULE_PATH = '.'.join(os.path.splitext(os.path.abspath(__file__))[0].split(os.sep)[-3:])
 
-# Operator user-agent (set in operator.json). Provide a sensible default to avoid blocking.
-USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
-
-# Broad set of possible article container selectors commonly used by news sites / Wordpress themes.
-ITEM_SELECTORS = [
-    "article",                 # semantic article tag
-    ".post",                   # common post class
-    ".post-item",
-    ".post-wrap",
-    ".post-block",
-    ".article",
-    ".entry",
-    ".entry-item",
-    ".entry-wrap",
-    ".td_module_wrap",         # td themes
-    ".jeg_post",               # jeg theme
-    ".item",                   # generic item
-    ".listing-item",
-    ".news-item",
-    ".blog-item",
-    ".archive-item",
-    ".card",                   # card-based layouts
-]
-# Combined selector string used for query_selector_all
-COMBINED_ITEM_SELECTOR = ",".join(ITEM_SELECTORS)
-
-# Candidate selectors for "next page" and "load more" controls.
-NEXT_PAGE_LINK_SELECTORS = [
-    'a[rel="next"]',
-    'a.next',
-    'a.next.page-numbers',
-    '.nav-next a',
-    'a.pagination-next',
-    '.pagination .next a',
-    'a[aria-label="next"]',
-]
-LOAD_MORE_BUTTON_SELECTORS = [
-    'button.load-more',
-    'a.load-more',
-    '.load-more a',
-    '.load_more',
-    'button.more',
-    '.btn-load-more',
-    '.infinite-load button',
-]
-
+# Operator user-agent (set in operator.json)
+USER_AGENT = ''
 
 class PlaywrightContext:
     """Context manager for Playwright browser sessions."""
 
     async def __aenter__(self):
         self.playwright = await async_playwright().start()
-        # Use headless to be CI-friendly
-        self.browser = await self.playwright.chromium.launch(headless=True)
-        context_kwargs = {}
-        if USER_AGENT:
-            context_kwargs['user_agent'] = USER_AGENT
-        # create a persistent browser context
+        self.browser = await self.playwright.chromium.launch()
+        context_kwargs = {'user_agent': USER_AGENT} if USER_AGENT else {}
         self.context = await self.browser.new_context(**context_kwargs)
         return self.context
 
     async def __aexit__(self, exc_type, exc_val, exc_tb):
-        try:
-            await self.context.close()
-        except Exception:
-            pass
         await self.browser.close()
         await self.playwright.stop()
 
-
-async def _safe_text(el):
-    """Return stripped text_content of element or None if not available."""
-    try:
-        if el is None:
-            return None
-        txt = await el.text_content()
-        if txt is None:
-            return None
-        return txt.strip()
-    except Exception:
-        return None
-
-
-async def _safe_attr(el, name):
-    """Return attribute value or None safely."""
-    try:
-        if el is None:
-            return None
-        return await el.get_attribute(name)
-    except Exception:
-        return None
-
-
-async def _parse_date_string(date_str):
-    """Try to parse a date string and return YYYY-MM-DD or None."""
-    if not date_str:
-        return None
-    try:
-        dt = parse(date_str, fuzzy=True)
-        return dt.date().isoformat()
-    except Exception:
-        return None
-
-
-async def scrape_page(page) -> List[dict]:
+async def scrape_page(page):
     """
     Extract article data from the current page.
 
@@ -127,320 +39,117 @@ async def scrape_page(page) -> List[dict]:
         List of dictionaries containing article data with keys:
         - title: Headline or title of the article
         - date: Publication date in YYYY-MM-DD format or None
-        - url: Link to the full article
+        - url: Absolute URL to the full article
         - scraper: module path for traceability
     """
     items = []
-    seen_urls = set()
 
-    # ensure page has settled a bit
+    # Use anchor elements that link to story pages as article containers.
+    # This selector is robust based on the provided examples.
     try:
-        await page.wait_for_load_state('networkidle', timeout=10000)
+        anchors = await page.query_selector_all('a[href^="/stories/"]')
     except Exception:
-        pass
+        anchors = []
 
-    # Find candidate containers using a broad list of selectors to be resilient.
-    try:
-        containers = await page.query_selector_all(COMBINED_ITEM_SELECTOR)
-    except Exception:
-        containers = []
-
-    # If no containers found, fall back to selecting items that contain links in article listing regions:
-    if not containers:
+    for a in anchors:
         try:
-            containers = await page.query_selector_all("main, .content, .site-content, #content, .archive, .blog")
-            # if that yields containers, we'll search anchors inside them later
-        except Exception:
-            containers = []
+            # Extract URL and resolve to absolute
+            href = await a.get_attribute('href')
+            if not href:
+                continue
+            url = urllib.parse.urljoin(base_url, href.strip())
+
+            # Extract title using h3 inside the anchor; use text_content() per instructions
+            title_el = await a.query_selector('h3')
+            title = None
+            if title_el:
+                raw_title = await title_el.text_content()
+                if raw_title:
+                    title = raw_title.strip()
+
+            # Title and URL are required; if title missing, skip this item
+            if not title or not url:
+                continue
 
-    # Primary pass: if we have container elements, extract items from them
-    if containers:
-        for el in containers:
+            # Extract date if present. Based on examples, date sits in a .flex... span:last-child inside the anchor.
+            date = None
             try:
-                # Attempt to find a title anchor inside the container using common heading selectors
-                title_el = await el.query_selector("h1 a, h2 a, h3 a, .entry-title a, .post-title a, a[rel='bookmark'], a.title, .title a")
-
-                # If no heading anchor, try the first anchor with visible text
-                if not title_el:
-                    anchors = await el.query_selector_all("a[href]")
-                    title_el = None
-                    for a in anchors:
-                        txt = await _safe_text(a)
-                        href = await _safe_attr(a, "href")
-                        if txt and href and len(txt) > 3:
-                            title_el = a
-                            break
-
-                title = await _safe_text(title_el) if title_el else None
-
-                # If title still missing, try aria-label or title attribute
-                if not title and title_el:
-                    title = (await _safe_attr(title_el, "aria-label")) or (await _safe_attr(title_el, "title"))
-                    if title:
-                        title = title.strip()
-
-                # Extract URL - prioritize href from title anchor
-                url = None
-                if title_el:
-                    href = await _safe_attr(title_el, "href")
-                    if href:
-                        url = urllib.parse.urljoin(base_url, href.strip())
-
-                # If still no URL, try first anchor in container
-                if not url:
-                    first_anchor = await el.query_selector("a[href]")
-                    if first_anchor:
-                        href = await _safe_attr(first_anchor, "href")
-                        if href:
-                            url = urllib.parse.urljoin(base_url, href.strip())
-
-                # Normalize url (remove fragments)
-                if url:
-                    try:
-                        parsed = urllib.parse.urlparse(url)
-                        url = urllib.parse.urlunparse(parsed._replace(fragment=""))
-                    except Exception:
-                        pass
-
-                # Extract date: prefer <time datetime> or time text, then common classes
+                date_el = await a.query_selector('.flex.items-center.justify-between span:last-child')
+                if date_el:
+                    raw_date = await date_el.text_content()
+                    if raw_date:
+                        raw_date = raw_date.strip()
+                        # Parse with dateutil; if parsing fails, set None
+                        try:
+                            parsed = parse(raw_date, fuzzy=True)
+                            date = parsed.date().isoformat()
+                        except Exception:
+                            date = None
+            except Exception:
                 date = None
-                time_el = await el.query_selector("time[datetime], time")
-                if time_el:
-                    datetime_attr = await _safe_attr(time_el, "datetime")
-                    if datetime_attr:
-                        date = await _parse_date_string(datetime_attr)
-                    else:
-                        time_text = await _safe_text(time_el)
-                        date = await _parse_date_string(time_text)
-
-                if not date:
-                    # try common date class selectors
-                    date_candidates = await el.query_selector_all(".post-date, .entry-date, .date, .published, .meta .date, .post-meta time, .meta-date, .time")
-                    for dc in date_candidates:
-                        txt = await _safe_text(dc)
-                        date = await _parse_date_string(txt)
-                        if date:
-                            break
-
-                # Required fields: title and url
-                if not title or not url:
-                    # skip incomplete items
-                    continue
-
-                # De-duplicate by URL
-                if url in seen_urls:
-                    continue
-                seen_urls.add(url)
-
-                items.append({
-                    'title': title,
-                    'date': date,
-                    'url': url,
-                    'scraper': SCRAPER_MODULE_PATH,
-                })
 
-            except Exception:
-                # be tolerant of malformed items; skip and continue
-                continue
+            items.append({
+                'title': title,
+                'date': date,
+                'url': url,
+                'scraper': SCRAPER_MODULE_PATH,
+            })
 
-    # Secondary fallback: If no items found from containers, scan anchors across the page and heuristically detect article links.
-    if not items:
-        try:
-            anchors = await page.query_selector_all("main a[href], article a[href], a[href]")
         except Exception:
-            anchors = []
-
-        for a in anchors:
-            try:
-                href = await _safe_attr(a, "href")
-                txt = await _safe_text(a)
-                # try to get title from aria-label/title attr if text is empty
-                if not txt or len(txt) < 4:
-                    txt = (await _safe_attr(a, "aria-label")) or (await _safe_attr(a, "title")) or txt
-                if not href:
-                    continue
-                href = href.strip()
-                # Skip fragments and mailto/tel
-                if href.startswith('#') or href.startswith('mailto:') or href.startswith('tel:'):
-                    continue
-                # Normalize
-                url = urllib.parse.urljoin(base_url, href)
-                # Skip obvious non-article assets
-                lower = url.lower()
-                if any(lower.endswith(ext) for ext in ('.jpg', '.jpeg', '.png', '.gif', '.svg', '.webp', '.pdf')):
-                    continue
-                # Skip links to categories or tags or pagination
-                if '/category/' in url or '/tag/' in url or '/page/' in url:
-                    # but allow if link text looks like an article (long title)
-                    if not txt or len(txt) < 10:
-                        continue
-                # Heuristic: require reasonable title text
-                if not txt or len(txt) < 8:
-                    continue
-
-                # Remove fragment
-                try:
-                    parsed = urllib.parse.urlparse(url)
-                    url = urllib.parse.urlunparse(parsed._replace(fragment=""))
-                except Exception:
-                    pass
-
-                if url in seen_urls:
-                    continue
-                seen_urls.add(url)
-
-                items.append({
-                    'title': txt.strip(),
-                    'date': None,
-                    'url': url,
-                    'scraper': SCRAPER_MODULE_PATH,
-                })
-            except Exception:
-                continue
+            # Protect against unexpected DOM issues for individual items
+            continue
 
     return items
 
-
 async def advance_page(page):
     """
     Finds the next page button or link to navigate to the next page of articles.
-    Clicks button or navigates to next page URL if found. Scroll load more button into view if not visible.
-    Defaults to infinite scroll if no pagination found.
+    If no explicit pagination is present, performs an infinite-scroll style load:
+    scroll to the bottom repeatedly until page height no longer increases or a short timeout is reached.
 
     Parameters:
         page: Playwright page object
     """
-    # 1) Try to find an explicit "next page" link (href navigation)
-    try:
-        for sel in NEXT_PAGE_LINK_SELECTORS:
-            try:
-                el = await page.query_selector(sel)
-            except Exception:
-                el = None
-            if el:
-                href = await _safe_attr(el, "href")
-                if href:
-                    next_url = urllib.parse.urljoin(base_url, href.strip())
-                    try:
-                        await page.goto(next_url)
-                        # allow content to load
-                        await page.wait_for_load_state('load', timeout=10000)
-                        await page.wait_for_load_state('networkidle', timeout=10000)
-                    except PlaywrightTimeoutError:
-                        # if navigation didn't finish, still proceed
-                        pass
-                    return
-
-                # if element is a linkless anchor (JS click)
-                try:
-                    await el.scroll_into_view_if_needed()
-                    await el.click()
-                    await page.wait_for_load_state('networkidle', timeout=7000)
-                    return
-                except Exception:
-                    # fall through to next selector
-                    pass
-    except Exception:
-        pass
-
-    # 2) Try to find "load more" buttons and click them (AJAX load)
-    try:
-        for sel in LOAD_MORE_BUTTON_SELECTORS:
-            try:
-                btn = await page.query_selector(sel)
-            except Exception:
-                btn = None
-            if btn:
-                try:
-                    await btn.scroll_into_view_if_needed()
-                except Exception:
-                    pass
-                try:
-                    await btn.click()
-                    # give AJAX some time
-                    await page.wait_for_load_state('networkidle', timeout=7000)
-                    # sometimes content loads slowly
-                    await page.wait_for_timeout(2000)
-                    return
-                except Exception:
-                    # try JS click fallback
-                    try:
-                        await page.evaluate("(el) => el.click()", btn)
-                        await page.wait_for_timeout(2000)
-                        return
-                    except Exception:
-                        continue
-    except Exception:
-        pass
-
-    # 3) Fallback: infinite scroll behavior.
+    # Attempt a few gentle scrolls to trigger lazy-loading/infinite scroll.
     try:
-        # Count current items
-        try:
-            prev_items = await page.query_selector_all(COMBINED_ITEM_SELECTOR)
-            prev_count = len(prev_items) if prev_items else 0
-        except Exception:
-            prev_count = 0
-
-        # Perform a series of scrolls to attempt to load more content
-        max_scrolls = 5
-        for _ in range(max_scrolls):
-            # scroll to bottom
-            try:
-                await page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
-            except Exception:
-                pass
-            # wait for potential lazy load
-            await page.wait_for_timeout(2500)
-
-            # check new count
-            try:
-                new_items = await page.query_selector_all(COMBINED_ITEM_SELECTOR)
-                new_count = len(new_items) if new_items else 0
-            except Exception:
-                new_count = prev_count
-
-            if new_count > prev_count:
-                # new content loaded; return to let caller scrape again
-                return
-            prev_count = new_count
+        # Initial page height
+        prev_height = await page.evaluate("() => document.body.scrollHeight")
+        max_attempts = 6
+        attempts = 0
+
+        while attempts < max_attempts:
+            # Scroll to bottom
+            await page.evaluate("() => window.scrollTo(0, document.body.scrollHeight)")
+            # Wait for potential content to load
+            await page.wait_for_timeout(1500)
+
+            new_height = await page.evaluate("() => document.body.scrollHeight")
+            if new_height == prev_height:
+                # No more content loaded on this scroll; try one more time and then stop
+                attempts += 1
+                prev_height = new_height
+            else:
+                # Content increased; reset attempts and continue scrolling
+                prev_height = new_height
+                attempts = 0
+
+        # Small pause after scrolling finished to allow any remaining dynamic content to settle
+        await page.wait_for_timeout(1000)
 
-        # If no new items after scrolling, do one final wait to ensure not missing delayed loads
-        await page.wait_for_timeout(2000)
     except Exception:
-        # If anything goes wrong, just return and let the caller detect no progress.
+        # If anything goes wrong with scrolling, just return and allow caller to handle termination.
         return
 
-
 async def get_first_page(base_url=base_url):
     """Fetch only the first page of articles."""
     async with PlaywrightContext() as context:
         page = await context.new_page()
-        try:
-            # apply stealth if available, but do not fail if it errors
-            try:
-                await Stealth().apply_stealth_async(page)
-            except Exception:
-                try:
-                    # fallback to other possible API name
-                    await Stealth().apply_async(page)
-                except Exception:
-                    pass
-        except Exception:
-            pass
-
-        try:
-            await page.goto(base_url)
-            try:
-                await page.wait_for_load_state('networkidle', timeout=10000)
-            except Exception:
-                await page.wait_for_timeout(1500)
-            items = await scrape_page(page)
-        finally:
-            await page.close()
+        await Stealth().apply_stealth_async(page)
+        await page.goto(base_url)
+        items = await scrape_page(page)
+        await page.close()
         return items
 
-
 async def get_all_articles(base_url=base_url, max_pages=100):
     """Fetch all articles from all pages."""
 
@@ -448,75 +157,49 @@ async def get_all_articles(base_url=base_url, max_pages=100):
         items = []
         seen = set()
         page = await context.new_page()
-        try:
-            try:
-                await Stealth().apply_stealth_async(page)
-            except Exception:
-                try:
-                    await Stealth().apply_async(page)
-                except Exception:
-                    pass
-        except Exception:
-            pass
-
+        await Stealth().apply_stealth_async(page)
         page_count = 0
+
         await page.goto(base_url)
+
+        page_count = 0
+        item_count = 0  # previous count
+        new_item_count = 0  # current count
+
         try:
-            try:
-                await page.wait_for_load_state('networkidle', timeout=10000)
-            except Exception:
-                await page.wait_for_timeout(1500)
+            while page_count < max_pages:
+                page_items = await scrape_page(page)
+                for item in page_items:
+                    key = tuple(sorted((k, v) for k, v in item.items() if v is not None))
+                    if key not in seen:
+                        seen.add(key)
+                        items.append(item)
+                new_item_count = len(items)
 
-            page_count = 0
-            item_count = 0  # previous count
-            new_item_count = 0  # current count
+                if new_item_count <= item_count:
+                    break
 
-            try:
-                while page_count < max_pages:
-                    page_items = await scrape_page(page)
-                    for item in page_items:
-                        # deduplicate by URL when available, otherwise use title+date
-                        key_url = item.get('url')
-                        if key_url:
-                            key = ('url', key_url)
-                        else:
-                            key = ('title_date', item.get('title'), item.get('date'))
-                        if key not in seen:
-                            seen.add(key)
-                            items.append(item)
-                    new_item_count = len(items)
-
-                    if new_item_count <= item_count:
-                        # no progress, stop pagination
-                        break
-
-                    page_count += 1
-                    item_count = new_item_count
-
-                    await advance_page(page)
-
-            except Exception as e:
-                print(f"Error occurred while getting next page: {e}")
-
-        finally:
-            try:
-                await page.close()
-            except Exception:
-                pass
+                page_count += 1
+                item_count = new_item_count
 
-        return items
+                await advance_page(page)
+
+        except Exception as e:
+            print(f"Error occurred while getting next page: {e}")
 
 
+        await page.close()
+        return items
+
 async def main():
     """Main execution function."""
     all_items = await get_all_articles()
 
     # Save results to JSON
     result_path = os.path.join(os.path.dirname(__file__), 'result.json')
-    with open(result_path, 'w', encoding='utf-8') as f:
-        json.dump(all_items, f, indent=2, ensure_ascii=False)
+    with open(result_path, 'w') as f:
+        json.dump(all_items, f, indent=2)
     print(f"Results saved to {result_path}")
 
-
 if __name__ == "__main__":
     asyncio.run(main())
\ No newline at end of file
diff --git a/scrapers/3hmongtv/seed.json b/scrapers/3hmongtv/seed.json
index 6c7a473..8962e73 100644
--- a/scrapers/3hmongtv/seed.json
+++ b/scrapers/3hmongtv/seed.json
@@ -3,7 +3,7 @@
     "scrapers": [
         {
             "path": "scrapers.3hmongtv.scraper",
-            "url": "https://hbctv.net/category/3hmongtv-news/"
+            "url": "https://hbctv.net/stories"
         }
     ]
 }
\ No newline at end of file