ccprocessor · yogacc33 · Mar 10, 2025 · Mar 10, 2025 · Mar 10, 2025 · Mar 10, 2025
diff --git a/llm_web_kit/extractor/html/recognizer/recognizer.py b/llm_web_kit/extractor/html/recognizer/recognizer.py
@@ -5,6 +5,7 @@
 from lxml.html import HtmlElement, HTMLParser
 
 from llm_web_kit.libs.html_utils import (build_cc_element, element_to_html,
+                                         element_to_html_unescaped,
                                          html_to_element, replace_element)
 from llm_web_kit.libs.logger import mylogger
 
@@ -90,6 +91,10 @@ def _element_to_html(self, element: HtmlElement) -> str:
         """
         return element_to_html(element)
 
+    def _element_to_html_entity(self, element: HtmlElement) -> str:
+        """将element转换成html字符串."""
+        return element_to_html_unescaped(element)
+
     def _build_cc_element(self, html_tag_name: str, text: str, tail: str, **kwargs) -> HtmlElement:
         """构建cctitle的html. 例如：<cctitle level=1>标题1</cctitle>
 

diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
@@ -255,7 +255,7 @@ def __get_table_body(self, table_type, table_nest_level, table_root):
         for child in table_root.iterchildren():
             if child is not None:
                 self.__get_table_body(table_type, table_nest_level, child)
-        return self._element_to_html(table_root)
+        return self._element_to_html_entity(table_root)
 
     def __do_extract_tables(self, root: HtmlElement) -> None:
         """递归处理所有子标签."""