From 69d420cf2c8b1357bc9b454269da995991e4c669 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 13:01:20 +0800
Subject: [PATCH 01/22] resolve nest table

---
 .../extractor/html/recognizer/table.py        |  137 ++-
 .../recognizer/table_include_code_expect.json |  299 +++++
 .../assets/recognizer/table_involve_code.html | 1001 +++++++++++++++++
 .../table_to_content_list_complex_res.json    |    3 +-
 .../extractor/html/recognizer/test_table.py   |   23 +-
 5 files changed, 1421 insertions(+), 42 deletions(-)
 create mode 100644 tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_include_code_expect.json
 create mode 100644 tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_involve_code.html
diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
index e2c70a39..b41f8834 100644
--- a/llm_web_kit/extractor/html/recognizer/table.py
+++ b/llm_web_kit/extractor/html/recognizer/table.py
@@ -1,9 +1,12 @@
-from typing import List, Tuple
+from itertools import chain
+from typing import Any, List, Tuple
 
 from lxml.html import HtmlElement
 from overrides import override
 
 from llm_web_kit.exception.exception import HtmlTableRecognizerExp
+from llm_web_kit.extractor.html.recognizer.cccode import CodeRecognizer
+from llm_web_kit.extractor.html.recognizer.ccmath import MathRecognizer
 from llm_web_kit.extractor.html.recognizer.recognizer import (
     BaseHTMLElementRecognizer, CCTag)
 from llm_web_kit.libs.doc_element_type import DocElementType
@@ -42,7 +45,7 @@ def recognize(self,
     def to_content_list_node(self, base_url: str, parsed_content: str, raw_html_segment: str) -> dict:
         if not parsed_content:
             raise HtmlTableRecognizerExp(f'table parsed_content{parsed_content}为空')
-        table_type, table_body = self.__get_attribute(parsed_content)
+        table_type, table_nest_level, table_body = self.__get_attribute(parsed_content)
         d = {
             'type': DocElementType.TABLE,
             # "bbox": [],
@@ -52,6 +55,7 @@ def to_content_list_node(self, base_url: str, parsed_content: str, raw_html_segm
             },
         }
         d['content']['is_complex'] = table_type
+        d['content']['table_nest_level'] = table_nest_level
         return d
 
     def __is_contain_cc_html(self, cc_html: str) -> bool:
@@ -64,6 +68,7 @@ def __is_table_empty(self, table) -> bool:
         :param table: lxml.html.HtmlElement 对象，表示一个 <table> 元素
         :return: 如果表格为空，返回 True；否则返回 False
         """
+
         def is_element_empty(elem):
             # 检查元素本身的文本内容
             if elem.text and elem.text.strip():
@@ -81,6 +86,7 @@ def is_element_empty(elem):
             if elem.tail and elem.tail.strip():
                 return False
             return True
+
         # 检查所有单元格
         for cell in table.xpath('.//td | .//th'):
             # 检查单元格内容
@@ -101,7 +107,8 @@ def __is_simple_table(self, tree) -> bool:
                 colspan = int(colspan_str)
                 rowspan = int(rowspan_str)
             except ValueError as e:
-                raise HtmlTableRecognizerExp(f'table的合并单元格属性值colspan:{colspan_str}或rowspan:{rowspan_str}不是有效的整数') from e
+                raise HtmlTableRecognizerExp(
+                    f'table的合并单元格属性值colspan:{colspan_str}或rowspan:{rowspan_str}不是有效的整数') from e
             if (colspan > 1) or (rowspan > 1):
                 return False
         return True
@@ -114,28 +121,28 @@ def __is_table_contain_img(self, tree) -> bool:
         else:
             return False
 
-    def __is_table_nested(self, tree) -> bool:
-        """判断table元素是否嵌套."""
-        nested_tables = tree.xpath('//table//table')
-        if len(nested_tables) == 0:
-            return True
-        else:
-            return False
+    def __is_table_nested(self, tree) -> int:
+        """获取表格元素的嵌套层级（非表格元素返回0，顶层表格返回1，嵌套表格返回层级数）."""
+        if tree.tag != 'table':
+            return 0  # 非表格元素返回0
+        # 计算祖先中的 table 数量（不包括自身），再加1表示自身层级
+        return len(tree.xpath('ancestor::table')) + 1
 
-    def __extract_tables(self, ele: HtmlElement) -> List[str]:
+    def __extract_tables(self, ele: HtmlElement) -> list[tuple[str, str]]:
         """提取html中的table元素."""
-        tree = self._build_html_tree(ele)
-        self.__do_extract_tables(tree)
-        new_html = self._element_to_html(tree)
+        self.__do_extract_tables(ele)
+        new_html = self._element_to_html(ele)
         lst = self.html_split_by_tags(new_html, CCTag.CC_TABLE)
         return lst
 
     def __get_table_type(self, child: HtmlElement) -> str:
         """获取table的类型."""
         empty_flag = self.__is_table_empty(child)
+        level = self.__is_table_nested(child)
         if empty_flag:
             return 'empty'
-        flag = self.__is_simple_table(child) and self.__is_table_nested(child)
+        # 是否跨行跨列
+        flag = (self.__is_simple_table(child) and level < 2)
         if flag:
             table_type = 'simple'
         else:
@@ -147,36 +154,91 @@ def __extract_table_element(self, ele: HtmlElement) -> str:
         for item in ele.iterchildren():
             return self._element_to_html(item)
 
-    def __simplify_td_th_content(self, elem):
+    def __check_table_include_math_code(self, raw_html: HtmlElement):
+        """check table中是否包含math."""
+        math_html = self._element_to_html(raw_html)
+        ele_res = list()
+        math_recognizer = MathRecognizer()
+        math_res_parts = math_recognizer.recognize(base_url='', main_html_lst=[(math_html, math_html)],
+                                                   raw_html=math_html)
+        code_recognizer = CodeRecognizer()
+        code_res_parts = code_recognizer.recognize(base_url='', main_html_lst=math_res_parts,
+                                                   raw_html=math_html)
+        for math_item in code_res_parts:
+            ele_item = self._build_html_tree(math_item[0])
+            ccinline_math_node = ele_item.xpath(f'//{CCTag.CC_MATH_INLINE}')
+            ccinline_code_node = ele_item.xpath(f'//{CCTag.CC_CODE_INLINE}')
+            ccinterline_math_node = ele_item.xpath(f'//{CCTag.CC_MATH_INTERLINE}')
+            ccinterline_code_node = ele_item.xpath(f'//{CCTag.CC_CODE}')
+            if ccinline_math_node:
+                formulas = [
+                    el.text if el.text.strip() else ''
+                    for el in ccinline_math_node
+                ]
+                ele_res.extend(formulas)  # 添加字符串
+            elif ccinterline_math_node:
+                codes = [
+                    el.text if el.text.strip() else ''
+                    for el in ccinterline_math_node
+                ]
+                ele_res.extend(codes)
+            elif ccinline_code_node:
+                inline_codes = [
+                    el.text if el.text.strip() else ''
+                    for el in ccinline_code_node
+                ]
+                ele_res.extend(inline_codes)
+            elif ccinterline_code_node:
+                ccinterline_codes = [
+                    el.text if el.text else ''
+                    for el in ccinterline_code_node
+                ]
+                ele_res.extend(ccinterline_codes)
+            else:
+                ele_res.extend([
+                    text.strip()
+                    for text in self._build_html_tree(math_item[1]).itertext()
+                    if text.strip()
+                ])
+        return ele_res
+
+    def __simplify_td_th_content(self, elem: HtmlElement) -> None:
         """简化 <td> 和 <th> 内容，仅保留文本内容."""
-        if elem.tag in ['td', 'th'] and len(elem.xpath('.//table')) == 0:
-            result = '<br>'.join([text for text in elem.itertext() if text.strip()])
-            for child in list(elem):
-                elem.remove(child)
-            elem.text = result
-        elif elem.tag in ['td', 'th'] and len(elem.xpath('.//table')) > 0:
-            for item in elem.iterchildren():
-                self.__simplify_td_th_content(item)
+        if elem.tag in ['td', 'th']:
+            # 简化单元格中的元素
+            parse_res = list()
+            math_res = self.__check_table_include_math_code(elem)
+            parse_res.extend(math_res)
+            for item in list(elem.iterchildren()):
+                elem.remove(item)
+            elem.text = '<br>'.join(parse_res)
+            return
+        for child in elem.iter('td', 'th'):
+            self.__simplify_td_th_content(child)
 
     def __get_table_body(self, table_type, table_root):
         """获取并处理table body，返回处理后的HTML字符串。"""
         if table_type == 'empty':
             return None
         allowed_attributes = ['colspan', 'rowspan']
-        for child in list(table_root.iterchildren()):
-            if child.tag is not None:
-                self.__get_table_body(table_type, child)
-        for ele in table_root.iter('td', 'th'):
-            self.__simplify_td_th_content(ele)
+        # 清理除了colspan和rowspan之外的属性
         if len(table_root.attrib) > 0:
             cleaned_attrs = {k: v for k, v in table_root.attrib.items() if k in allowed_attributes}
             table_root.attrib.clear()
             table_root.attrib.update(cleaned_attrs)
-        if table_root.text is not None:
-            table_root.text = table_root.text.strip()
-        for elem in table_root.iter():
-            if elem.tail is not None:
+        # text进行strip操作,tail去掉(有较多空换行)
+        for elem in chain([table_root], table_root.iterdescendants()):
+            if elem.text:
+                elem.text = elem.text.strip()
+            if elem.tail:
                 elem.tail = elem.tail.strip()
+
+        self.__simplify_td_th_content(table_root)
+        # 迭代
+        for child in table_root.iterchildren():
+            if child is not None:
+                self.__get_table_body(table_type, child)
+
         return self._element_to_html(table_root)
 
     def __do_extract_tables(self, root: HtmlElement) -> None:
@@ -184,23 +246,26 @@ def __do_extract_tables(self, root: HtmlElement) -> None:
         if root.tag in ['table']:
             table_raw_html = self._element_to_html(root)
             table_type = self.__get_table_type(root)
+            table_nest_level = self.__is_table_nested(root)
             tail_text = root.tail
             table_body = self.__get_table_body(table_type, root)
             cc_element = self._build_cc_element(
-                CCTag.CC_TABLE, table_body, tail_text, table_type=table_type, html=table_raw_html)
+                CCTag.CC_TABLE, table_body, tail_text, table_type=table_type, table_nest_level=table_nest_level,
+                html=table_raw_html)
             self._replace_element(root, cc_element)
             return
         for child in root.iterchildren():
             self.__do_extract_tables(child)
 
-    def __get_attribute(self, html: str) -> Tuple[int, str]:
+    def __get_attribute(self, html: str) -> tuple[bool, Any, Any]:
         """获取element的属性."""
         ele = self._build_html_tree(html)
         if ele is not None and ele.tag == CCTag.CC_TABLE:
             table_type = ele.attrib.get('table_type')
+            table_nest_level = ele.attrib.get('table_nest_level')
             table_flag = self.__get_content_list_table_type(table_type)
             table_body = ele.text
-            return table_flag, table_body
+            return table_flag, table_nest_level, table_body
         else:
             raise HtmlTableRecognizerExp(f'{html}中没有cctable标签')
 
diff --git a/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_include_code_expect.json b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_include_code_expect.json
new file mode 100644
index 00000000..15a9cf34
--- /dev/null
+++ b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_include_code_expect.json
@@ -0,0 +1,299 @@
+<table><tbody><tr><td>1&lt;br&gt;2&lt;br&gt;3&lt;br&gt;4&lt;br&gt;5&lt;br&gt;6&lt;br&gt;7&lt;br&gt;8&lt;br&gt;9&lt;br&gt;10&lt;br&gt;11&lt;br&gt;12&lt;br&gt;13&lt;br&gt;14&lt;br&gt;15&lt;br&gt;16&lt;br&gt;17&lt;br&gt;18&lt;br&gt;19&lt;br&gt;20&lt;br&gt;21&lt;br&gt;22&lt;br&gt;23&lt;br&gt;24&lt;br&gt;25&lt;br&gt;26&lt;br&gt;27&lt;br&gt;28&lt;br&gt;29&lt;br&gt;30&lt;br&gt;31&lt;br&gt;32&lt;br&gt;33&lt;br&gt;34&lt;br&gt;35&lt;br&gt;36&lt;br&gt;37&lt;br&gt;38&lt;br&gt;39&lt;br&gt;40&lt;br&gt;41&lt;br&gt;42&lt;br&gt;43&lt;br&gt;44&lt;br&gt;45&lt;br&gt;46&lt;br&gt;47&lt;br&gt;48&lt;br&gt;49&lt;br&gt;50&lt;br&gt;51&lt;br&gt;52&lt;br&gt;53&lt;br&gt;54&lt;br&gt;55&lt;br&gt;56&lt;br&gt;57&lt;br&gt;58&lt;br&gt;59&lt;br&gt;60&lt;br&gt;61&lt;br&gt;62&lt;br&gt;63&lt;br&gt;64&lt;br&gt;65&lt;br&gt;66&lt;br&gt;67&lt;br&gt;68&lt;br&gt;69&lt;br&gt;70&lt;br&gt;71&lt;br&gt;72&lt;br&gt;73&lt;br&gt;74&lt;br&gt;75&lt;br&gt;76&lt;br&gt;77&lt;br&gt;78&lt;br&gt;79&lt;br&gt;80&lt;br&gt;81&lt;br&gt;82&lt;br&gt;83&lt;br&gt;84&lt;br&gt;85&lt;br&gt;86&lt;br&gt;87&lt;br&gt;88&lt;br&gt;89&lt;br&gt;90&lt;br&gt;91&lt;br&gt;92&lt;br&gt;93&lt;br&gt;94&lt;br&gt;95&lt;br&gt;96&lt;br&gt;97&lt;br&gt;98&lt;br&gt;99&lt;br&gt;100&lt;br&gt;101&lt;br&gt;102&lt;br&gt;103&lt;br&gt;104&lt;br&gt;105&lt;br&gt;106&lt;br&gt;107&lt;br&gt;108&lt;br&gt;109&lt;br&gt;110&lt;br&gt;111&lt;br&gt;112&lt;br&gt;113&lt;br&gt;114&lt;br&gt;115&lt;br&gt;116&lt;br&gt;117&lt;br&gt;118&lt;br&gt;119&lt;br&gt;120&lt;br&gt;121&lt;br&gt;122&lt;br&gt;123&lt;br&gt;124&lt;br&gt;125&lt;br&gt;126&lt;br&gt;127&lt;br&gt;128&lt;br&gt;129&lt;br&gt;130&lt;br&gt;131&lt;br&gt;132&lt;br&gt;133&lt;br&gt;134&lt;br&gt;135&lt;br&gt;136&lt;br&gt;137&lt;br&gt;138&lt;br&gt;139&lt;br&gt;140&lt;br&gt;141&lt;br&gt;142&lt;br&gt;143&lt;br&gt;144&lt;br&gt;145&lt;br&gt;146&lt;br&gt;147&lt;br&gt;148&lt;br&gt;149&lt;br&gt;150&lt;br&gt;151&lt;br&gt;152&lt;br&gt;153&lt;br&gt;154&lt;br&gt;155&lt;br&gt;156&lt;br&gt;157&lt;br&gt;158&lt;br&gt;159&lt;br&gt;160&lt;br&gt;161&lt;br&gt;162&lt;br&gt;163&lt;br&gt;164&lt;br&gt;165&lt;br&gt;166&lt;br&gt;167&lt;br&gt;168&lt;br&gt;169&lt;br&gt;170&lt;br&gt;171&lt;br&gt;172&lt;br&gt;173&lt;br&gt;174&lt;br&gt;175&lt;br&gt;176&lt;br&gt;177&lt;br&gt;178&lt;br&gt;179&lt;br&gt;180&lt;br&gt;181&lt;br&gt;182&lt;br&gt;183&lt;br&gt;184&lt;br&gt;185&lt;br&gt;186&lt;br&gt;187&lt;br&gt;188&lt;br&gt;189&lt;br&gt;190&lt;br&gt;191&lt;br&gt;192&lt;br&gt;193&lt;br&gt;194&lt;br&gt;195&lt;br&gt;196&lt;br&gt;197&lt;br&gt;198&lt;br&gt;199&lt;br&gt;200&lt;br&gt;201&lt;br&gt;202&lt;br&gt;203&lt;br&gt;204&lt;br&gt;205&lt;br&gt;206&lt;br&gt;207&lt;br&gt;208&lt;br&gt;209&lt;br&gt;210&lt;br&gt;211&lt;br&gt;212&lt;br&gt;213&lt;br&gt;214&lt;br&gt;215&lt;br&gt;216&lt;br&gt;217&lt;br&gt;218&lt;br&gt;219&lt;br&gt;220&lt;br&gt;221&lt;br&gt;222&lt;br&gt;223&lt;br&gt;224&lt;br&gt;225&lt;br&gt;226&lt;br&gt;227&lt;br&gt;228&lt;br&gt;229&lt;br&gt;230&lt;br&gt;231&lt;br&gt;232&lt;br&gt;233&lt;br&gt;234&lt;br&gt;235&lt;br&gt;236&lt;br&gt;237&lt;br&gt;238&lt;br&gt;239&lt;br&gt;240&lt;br&gt;241&lt;br&gt;242&lt;br&gt;243&lt;br&gt;244&lt;br&gt;245&lt;br&gt;246&lt;br&gt;247&lt;br&gt;248&lt;br&gt;249&lt;br&gt;250&lt;br&gt;251&lt;br&gt;252&lt;br&gt;253&lt;br&gt;254&lt;br&gt;255&lt;br&gt;256&lt;br&gt;257&lt;br&gt;258&lt;br&gt;259&lt;br&gt;260&lt;br&gt;261&lt;br&gt;262&lt;br&gt;263&lt;br&gt;264&lt;br&gt;265&lt;br&gt;266&lt;br&gt;267&lt;br&gt;268&lt;br&gt;269&lt;br&gt;270&lt;br&gt;271&lt;br&gt;272&lt;br&gt;273&lt;br&gt;274&lt;br&gt;275&lt;br&gt;276&lt;br&gt;277&lt;br&gt;278&lt;br&gt;279&lt;br&gt;280&lt;br&gt;281&lt;br&gt;282&lt;br&gt;283&lt;br&gt;284&lt;br&gt;285&lt;br&gt;286&lt;br&gt;287&lt;br&gt;288&lt;br&gt;289&lt;br&gt;290&lt;br&gt;291&lt;br&gt;292&lt;br&gt;293&lt;br&gt;294&lt;br&gt;295&lt;br&gt;296&lt;br&gt;297&lt;br&gt;298&lt;br&gt;299</td><td>&lt;%@ page language="java"import="java.util.*"pageEncoding="utf-8"%&gt;
+&lt;%
+String path = request.getContextPath();
+String basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path+"/";
+%&gt;
+
+&lt;!DOCTYPE HTML PUBLIC"-//W3C//DTD HTML 4.01 Transitional//EN"&gt;
+&lt;html&gt;
+&lt;head&gt;
+&lt;title&gt;My JSP'register.jsp'starting page&lt;/title&gt;
+&lt;/head&gt;
+
+&lt;body&gt;
+&lt;script type="text/javascript"&gt;
+function validate(){
+if(registerForm.uname.value==""){
+alert("账号不能为空!");
+return;
+}
+if(registerForm.upwd.value==""){
+alert("密码不能为空!");
+return;
+}
+registerForm.submit();
+}
+&lt;/script&gt;
+
+&lt;form  name="registerForm"action="DoregServlet"method="post"&gt;
+
+用户名:&lt;input type="text"name="uname"&gt;&lt;br&gt;
+密   码: &lt;input type="password"name="upwd"&gt; &lt;br&gt;
+&lt;input type="submit"value="注册"&gt;
+&lt;a href="denglu.jsp"&gt;登录&lt;/a&gt;
+&lt;/form&gt;
+
+&lt;/body&gt;
+&lt;/html&gt;
+
+
+
+packagecom.servlet;
+
+importjava.io.IOException;
+importjava.io.PrintWriter;
+
+importjavax.servlet.ServletException;
+importjavax.servlet.http.HttpServlet;
+importjavax.servlet.http.HttpServletRequest;
+importjavax.servlet.http.HttpServletResponse;
+
+importcom.dao.UsersDao;
+
+publicclassservlet3extendsHttpServlet {
+
+publicservlet3() {
+super();
+}
+
+
+publicvoiddestroy() {
+super.destroy();// Just puts "destroy" string in log
+// Put your code here
+}
+
+
+publicvoiddoGet(HttpServletRequest request, HttpServletResponse response)
+throwsServletException, IOException {
+doPost (request, response);
+
+}
+
+
+publicvoiddoPost(HttpServletRequest request, HttpServletResponse response)
+throwsServletException, IOException {
+
+String uname = request.getParameter("uname");
+String upwd = request.getParameter("upwd");
+UsersDao usersDao =newUsersDao();
+inti=usersDao.reg(uname, upwd);
+if(i&gt;0){
+
+response.setHeader("refresh","2;url=login.jsp");
+}else{
+
+response.setHeader("refresh","2;url=reg.jsp");
+}
+}
+
+/**
+* Initialization of the servlet. &lt;br&gt;
+*
+* @throws ServletException if an error occurs
+*/
+publicvoidinit()throwsServletException {
+// Put your code here
+}
+
+}
+
+
+
+
+
+packagecom.sf.servlet;
+
+importjava.io.IOException;
+importjava.io.PrintWriter;
+
+importjavax.servlet.ServletException;
+importjavax.servlet.http.HttpServlet;
+importjavax.servlet.http.HttpServletRequest;
+importjavax.servlet.http.HttpServletResponse;
+
+importcom.sf.dao.MsgDao;
+importcom.sf.dao.UsersDao;
+
+publicclassDoregservletextendsHttpServlet {
+
+/**
+* Constructor of the object.
+*/
+publicDoregservlet() {
+super();
+}
+
+/**
+* Destruction of the servlet. &lt;br&gt;
+*/
+publicvoiddestroy() {
+super.destroy();// Just puts "destroy" string in log
+// Put your code here
+}
+
+publicvoiddoGet(HttpServletRequest request, HttpServletResponse response)
+throwsServletException, IOException {
+
+response.setContentType("text/html");
+PrintWriter out = response.getWriter();
+request.setCharacterEncoding("utf-8");
+String uname = request.getParameter("uname");
+String upwd = request.getParameter("upwd");
+
+UsersDao ud =newUsersDao();
+MsgDao md =newMsgDao();
+if(ud.register(uname, upwd) &gt;0) {
+request.getSession().setAttribute("uname", uname);
+request.getRequestDispatcher("denglu.jsp").forward(request,
+response);
+}else{
+out.print("注册失败，请重新注册.......");
+response.setHeader("refresh","3;url=reg.jsp");
+}
+}
+publicvoiddoPost(HttpServletRequest request, HttpServletResponse response)
+throwsServletException, IOException {
+
+doGet(request,response);
+}
+
+/**
+* Initialization of the servlet. &lt;br&gt;
+*
+* @throws ServletException if an error occurs
+*/
+publicvoidinit()throwsServletException {
+// Put your code here
+}
+
+}
+
+
+
+
+
+packagecom.servlet;
+
+importjava.io.IOException;
+importjava.io.PrintWriter;
+
+importjavax.servlet.ServletException;
+importjavax.servlet.http.HttpServlet;
+importjavax.servlet.http.HttpServletRequest;
+importjavax.servlet.http.HttpServletResponse;
+
+importcom.dao.MsgDao;
+
+publicclassservlet5extendsHttpServlet {
+
+publicservlet5() {
+super();
+}
+
+publicvoiddestroy() {
+super.destroy();// Just puts "destroy" string in log
+// Put your code here
+}
+
+
+publicvoiddoGet(HttpServletRequest request, HttpServletResponse response)
+throwsServletException, IOException {
+
+doPost(request,  response);
+}
+
+
+publicvoiddoPost(HttpServletRequest request, HttpServletResponse response)
+throwsServletException, IOException {
+
+request.setCharacterEncoding("utf-8");
+
+intid=Integer.parseInt(request.getParameter("id"));
+MsgDao md=newMsgDao();
+md.delMail(id);
+response.getWriter().print("刪除成功.....");
+response.setHeader("refresh","2;url=main.jsp");
+response.sendRedirect("main2.jsp");
+}
+
+
+publicvoidinit()throwsServletException {
+
+}
+
+}
+
+
+
+
+
+
+
+packagecom.sf.servlet;
+
+importjava.io.IOException;
+importjava.io.PrintWriter;
+
+importjavax.servlet.ServletException;
+importjavax.servlet.http.HttpServlet;
+importjavax.servlet.http.HttpServletRequest;
+importjavax.servlet.http.HttpServletResponse;
+
+importcom.sf.dao.MsgDao;
+importcom.sf.entity.Msg;
+
+publicclassDowriteservletextendsHttpServlet {
+
+/**
+* Constructor of the object.
+*/
+publicDowriteservlet() {
+super();
+}
+
+/**
+* Destruction of the servlet. &lt;br&gt;
+*/
+publicvoiddestroy() {
+super.destroy();// Just puts "destroy" string in log
+// Put your code here
+}
+
+publicvoiddoGet(HttpServletRequest request, HttpServletResponse response)
+throwsServletException, IOException {
+
+response.setContentType("text/html");
+PrintWriter out = response.getWriter();
+request.setCharacterEncoding("utf-8");
+String uname = (String) request.getSession().getAttribute("uname");
+String sendto = request.getParameter("receiver");
+String title = request.getParameter("title");
+String content = request.getParameter("content");
+
+Msg m =newMsg();
+m.setMsgcontent(content);
+m.setUsername(uname);
+m.setSendto(sendto);
+m.setTitle(title);
+
+MsgDao md =newMsgDao();
+md.addMsg(m);
+
+out.print("发送成功.....");
+response.setHeader("refresh","3;url=main.jsp");
+}
+
+publicvoiddoPost(HttpServletRequest request, HttpServletResponse response)
+throwsServletException, IOException {
+
+doGet(request,response);     }
+
+/**
+* Initialization of the servlet. &lt;br&gt;
+*
+* @throws ServletException if an error occurs
+*/
+publicvoidinit()throwsServletException {
+}
+
+}</td></tr></tbody></table>
\ No newline at end of file
diff --git a/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_involve_code.html b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_involve_code.html
new file mode 100644
index 00000000..d1961838
--- /dev/null
+++ b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_involve_code.html
@@ -0,0 +1,1001 @@
+
+<!DOCTYPE html>
+<html lang="zh-cn">
+<head>
+    <meta charset="utf-8" />
+    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+    <meta name="referrer" content="origin-when-cross-origin" />
+
+    <meta name="description" content="1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 " />
+    <meta property="og:description" content="1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 " />
+    <meta http-equiv="Cache-Control" content="no-transform" />
+    <meta http-equiv="Cache-Control" content="no-siteapp" />
+    <meta http-equiv="X-UA-Compatible" content="IE=edge" />
+    <title>第十三周作业 - 徐涛% - 博客园</title>
+    <link rel="icon" id="favicon" href="https://assets.cnblogs.com/favicon_v3_2.ico" type="image/x-icon" />
+    <link rel="canonical" href="https://www.cnblogs.com/xu-tao/p/16324793.html" />
+
+    <link rel="stylesheet" href="/css/blog-common.min.css?v=hrF-MrliI8ME5HgKEBcKbyyWVx_teY4bvy41DHDLq1Y" />
+
+
+    <link id="MainCss" rel="stylesheet" href="/skins/simplememory/bundle-simplememory.min.css?v=SiaEEyuLLyqQ30U6p0_gAunDLOqZtbt7kF5APbDruVo" />
+        <link id="highlighter-theme-cnblogs" type="text/css" rel="stylesheet" href="/css/hljs/cnblogs.css?v=5J1NDtbnnIr2Rc2SdhEMlMxD4l9Eydj88B31E7_NhS4" />
+
+
+    <link id="mobile-style" media="only screen and (max-width: 767px)" type="text/css" rel="stylesheet" href="/skins/SimpleMemory/bundle-simplememory-mobile.min.css?v=oszcEHAd7_1iJ2MP31KIQUpvXkouJvG0H1C_OJqzdV8" />
+
+    <link type="application/rss+xml" rel="alternate" href="https://www.cnblogs.com/xu-tao/rss" />
+    <link type="application/rsd+xml" rel="EditURI" href="https://www.cnblogs.com/xu-tao/rsd.xml" />
+    <link type="application/wlwmanifest+xml" rel="wlwmanifest" href="https://www.cnblogs.com/xu-tao/wlwmanifest.xml" />
+
+    <script type="application/ld&#x2B;json">
+    {
+      "@context": "https://schema.org",
+      "@type": "BlogPosting",
+      "@id": "https://www.cnblogs.com/xu-tao/p/16324793.html",
+      "headline": "第十三周作业",
+      "description": "1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 ",
+      "image": [
+
+      ],
+      "author": {
+        "@type": "Person",
+        "@id": "https://www.cnblogs.com/xu-tao/",
+        "name": "徐涛%",
+        "url": "https://www.cnblogs.com/xu-tao/"
+      },
+      "publisher": {
+        "@type": "Organization",
+        "@id": "https://www.cnblogs.com/",
+        "name": "博客园",
+        "url": "https://www.cnblogs.com/"
+      },
+      "datePublished": "2022-05-29T20:20:00.0000000&#x2B;08:00",
+      "dateModified": "2022-05-29T20:20:00.0000000&#x2B;08:00",
+      "wordCount": "65627",
+      "isPartOf": {
+        "@type": "Blog",
+        "@id": "https://www.cnblogs.com/xu-tao/",
+        "name": "徐涛%",
+        "publisher": {
+          "@type": "Organization",
+          "@id": "https://www.cnblogs.com/",
+          "name": "博客园"
+        }
+      }
+    }
+    </script>
+
+    <script>
+        var currentBlogId = 670312;
+        var currentBlogApp = 'xu-tao';
+        var isLogined = false;
+        var isBlogOwner = false;
+        var skinName = 'SimpleMemory';
+        var visitorUserId = '';
+        var hasCustomScript = false;
+        window.cb_enable_mathjax = false;
+        window.mathEngine = 0;
+        window.codeHighlightEngine = 1;
+        window.enableCodeLineNumber = false;
+        window.codeHighlightTheme = 'cnblogs';
+        window.darkModeCodeHighlightTheme = 'vs2015';
+        window.isDarkCodeHighlightTheme = false;
+        window.isDarkModeCodeHighlightThemeDark = true;
+        window.isDisableCodeHighlighter = false;
+        window.enableCodeThemeTypeFollowSystem = false;
+        window.enableMacStyleCodeBlock = false;
+    </script>
+        <script>
+            window.currentPostId = 16324793;
+            window.currentPostDateAdded = '2022-05-29 20:20';
+        </script>
+    <script src="https://assets.cnblogs.com/scripts/jquery-3.3.1.min.js"></script>
+    <script src="https://cdn-www.cnblogs.com/js/blog-common.min.js?v=d207rkQBO0qSHcYjyXQqMTjpu-PVUF4sEowC6X1nfHg"></script>
+
+</head>
+<body class="skin-simplememory has-navbar">
+    <a name="top"></a>
+        <div id="imagebar" class="imagebar-mobile imagebar-text-mobile formobile">
+                <a href="https://www.doubao.com?channel=cnblogs&amp;source=hw_db_cnblogs" onclick="countCreativeClicks('M2-字节-豆包')" rel="nofollow">
+                    <img src="https://img2024.cnblogs.com/blog/35695/202412/35695-20241201073014811-1847930772.jpg" alt="" onload="countCreativeImpressionsOnMobile('M2-字节-豆包')" />
+                    <span id="m2_impression" style="display:none"></span>
+                </a>
+        </div>
+    <div id="top_nav" class="navbar forpc">
+        <nav id="nav_main" class="navbar-main">
+            <ul id="nav_left" class="navbar-list navbar-left">
+                <li class="navbar-branding">
+                    <a href="https://www.cnblogs.com/" title="开发者的网上家园" role="banner">
+                        <img src="//assets.cnblogs.com/logo.svg" alt="博客园Logo" />
+                    </a>
+                </li>
+                    <li><a href="https://cnblogs.vip/">会员</a></li>
+                    <li><a href="https://cnblogs.vip/store">周边</a></li>
+                        <li><a href="https://www.cnblogs.com/cmt/p/18500368">众包</a></li>
+                <li>
+                    <a href="https://news.cnblogs.com/" onclick="countClicks('nav', 'skin-navbar-news')">新闻</a>
+                </li>
+                <li>
+                    <a href="https://q.cnblogs.com/" onclick="countClicks('nav', 'skin-navbar-q')">博问</a>
+                </li>
+                <li>
+                    <a href="https://ing.cnblogs.com/" onclick="countClicks('nav', 'skin-navbar-ing')">闪存</a>
+                </li>
+                <li><a href="https://www.cnblogs.com/cmt/p/18341478">赞助商</a></li>
+                <li><a href="https://chat2db-ai.com/" target="_blank" onclick="countClicks('nav', 'skin-navbar-chat2db')">Chat2DB</a></li>
+            </ul>
+            <ul id="nav_right" class="navbar-list navbar-right">
+                <li>
+                    <form id="zzk_search" class="navbar-search dropdown" action="https://zzk.cnblogs.com/s" method="get" role="search">
+                        <input name="w" id="zzk_search_input" placeholder="代码改变世界" type="search" tabindex="3" autocomplete="off" />
+                        <button id="zzk_search_button" onclick="window.navbarSearchManager.triggerActiveOption()">
+                            <img id="search_icon" class="focus-hidden" src="//assets.cnblogs.com/icons/search.svg" alt="搜索" />
+                            <img class="hidden focus-visible" src="//assets.cnblogs.com/icons/enter.svg" alt="搜索" />
+                        </button>
+                        <ul id="navbar_search_options" class="dropdown-menu quick-search-menu">
+                            <li tabindex="0" class="active" onclick="zzkSearch(event, document.getElementById('zzk_search_input').value)">
+                                <div class="keyword-wrapper">
+                                    <img src="//assets.cnblogs.com/icons/search.svg" alt="搜索" />
+                                    <div class="keyword"></div>
+                                </div>
+                                <span class="search-area">所有博客</span>
+                            </li>
+                                    <li tabindex="1" onclick="zzkBlogSearch(event, 'xu-tao', document.getElementById('zzk_search_input').value)">
+                                        <div class="keyword-wrapper">
+                                            <img src="//assets.cnblogs.com/icons/search.svg" alt="搜索" />
+                                            <div class="keyword"></div>
+                                        </div>
+                                        <span class="search-area">当前博客</span>
+                                    </li>
+                        </ul>
+                    </form>
+                </li>
+                <li id="navbar_login_status" class="navbar-list">
+                    <a class="navbar-user-info navbar-blog" href="https://i.cnblogs.com/EditPosts.aspx?opt=1" alt="写随笔" title="写随笔">
+                        <img id="new_post_icon" class="navbar-icon" src="//assets.cnblogs.com/icons/newpost.svg" alt="写随笔" />
+                    </a>
+                    <a id="navblog-myblog-icon" class="navbar-user-info navbar-blog" href="https://passport.cnblogs.com/GetBlogApplyStatus.aspx" alt="我的博客" title="我的博客">
+                        <img id="myblog_icon" class="navbar-icon" src="//assets.cnblogs.com/icons/myblog.svg" alt="我的博客" />
+                    </a>
+                    <a class="navbar-user-info navbar-message navbar-icon-wrapper" href="https://msg.cnblogs.com/" alt="短消息" title="短消息">
+                        <img id="msg_icon" class="navbar-icon" src="//assets.cnblogs.com/icons/message.svg" alt="短消息" />
+                        <span id="msg_count" style="display: none"></span>
+                    </a>
+                    <a id="navbar_lite_mode_indicator" data-current-page="blog" style="display: none" href="javascript:void(0)" alt="简洁模式" title="简洁模式启用，您在访问他人博客时会使用简洁款皮肤展示">
+                        <img class="navbar-icon" src="//assets.cnblogs.com/icons/lite-mode-on.svg" alt="简洁模式" />
+                    </a>
+                    <div id="user_info" class="navbar-user-info dropdown">
+                        <a class="dropdown-button" href="https://home.cnblogs.com/">
+                            <img id="user_icon" class="navbar-avatar" src="//assets.cnblogs.com/icons/avatar-default.svg" alt="用户头像" />
+                        </a>
+                        <div class="dropdown-menu">
+                            <a id="navblog-myblog-text" href="https://passport.cnblogs.com/GetBlogApplyStatus.aspx">我的博客</a>
+                            <a href="https://home.cnblogs.com/">我的园子</a>
+                            <a href="https://account.cnblogs.com/settings/account">账号设置</a>
+                            <a href="javascript:void(0)" id="navbar_lite_mode_toggle" title="简洁模式会使用简洁款皮肤显示所有博客">
+    简洁模式 <img id="navbar_lite_mode_on" src="/images/lite-mode-check.svg" class="hide" /><span id="navbar_lite_mode_spinner" class="hide">...</span>
+</a>
+                            <a href="javascript:void(0)" onclick="account.logout();">退出登录</a>
+                        </div>
+                    </div>
+                    <a class="navbar-anonymous" href="https://account.cnblogs.com/signup">注册</a>
+                    <a class="navbar-anonymous" href="javascript:void(0);" onclick="account.login()">登录</a>
+                </li>
+            </ul>
+        </nav>
+    </div>
+
+
+
+    <!--done-->
+<div id="home">
+<div id="header">
+	<div id="blogTitle">
+        <a id="lnkBlogLogo" href="https://www.cnblogs.com/xu-tao/"><img id="blogLogo" src="/skins/custom/images/logo.gif" alt="返回主页" /></a>
+
+<!--done-->
+<h1><a id="Header1_HeaderTitle" class="headermaintitle HeaderMainTitle" href="https://www.cnblogs.com/xu-tao">徐涛%</a>
+</h1>
+<h2></h2>
+
+
+
+
+
+	</div><!--end: blogTitle 博客的标题和副标题 -->
+	<div id="navigator">
+
+<ul id="navList">
+<li><a id="blog_nav_sitehome" class="menu" href="https://www.cnblogs.com/">
+博客园</a>
+</li>
+<li>
+<a id="blog_nav_myhome" class="menu" href="https://www.cnblogs.com/xu-tao/">
+首页</a>
+</li>
+<li>
+
+<a id="blog_nav_newpost" class="menu" href="https://i.cnblogs.com/EditPosts.aspx?opt=1">
+新随笔</a>
+</li>
+<li>
+<a id="blog_nav_contact" class="menu" href="https://msg.cnblogs.com/send/%E5%BE%90%E6%B6%9B%25">
+联系</a></li>
+<li>
+<a id="blog_nav_rss" class="menu" href="javascript:void(0)" data-rss="https://www.cnblogs.com/xu-tao/rss/">
+订阅</a>
+<!--<partial name="./Shared/_XmlLink.cshtml" model="Model" /></li>--></li>
+<li>
+<a id="blog_nav_admin" class="menu" href="https://i.cnblogs.com/">
+管理</a>
+</li>
+</ul>
+
+
+		<div class="blogStats">
+			<div id="blog_stats_place_holder"><script>loadBlogStats();</script></div>
+		</div><!--end: blogStats -->
+	</div><!--end: navigator 博客导航栏 -->
+</div><!--end: header 头部 -->
+<div id="main">
+	<div id="mainContent">
+	<div class="forFlow">
+		<div id="post_detail">
+    <!--done-->
+    <div id="topics">
+        <div class="post">
+            <h1 class = "postTitle">
+                <a id="cb_post_title_url" class="postTitle2 vertical-middle" href="https://www.cnblogs.com/xu-tao/p/16324793.html" title="发布于 2022-05-29 20:20">
+    <span role="heading" aria-level="2">第十三周作业</span>
+
+
+</a>
+
+            </h1>
+            <div class="clear"></div>
+            <div class="postBody">
+                <div id="cnblogs_post_body" class="blogpost-body blogpost-body-html">
+<br>
+<table border="0" cellspacing="0" cellpadding="0">
+<tbody>
+<tr>
+<td class="gutter">
+<div class="line number1 index0 alt2">1</div>
+<div class="line number2 index1 alt1">2</div>
+<div class="line number3 index2 alt2">3</div>
+<div class="line number4 index3 alt1">4</div>
+<div class="line number5 index4 alt2">5</div>
+<div class="line number6 index5 alt1">6</div>
+<div class="line number7 index6 alt2">7</div>
+<div class="line number8 index7 alt1">8</div>
+<div class="line number9 index8 alt2">9</div>
+<div class="line number10 index9 alt1">10</div>
+<div class="line number11 index10 alt2">11</div>
+<div class="line number12 index11 alt1">12</div>
+<div class="line number13 index12 alt2">13</div>
+<div class="line number14 index13 alt1">14</div>
+<div class="line number15 index14 alt2">15</div>
+<div class="line number16 index15 alt1">16</div>
+<div class="line number17 index16 alt2">17</div>
+<div class="line number18 index17 alt1">18</div>
+<div class="line number19 index18 alt2">19</div>
+<div class="line number20 index19 alt1">20</div>
+<div class="line number21 index20 alt2">21</div>
+<div class="line number22 index21 alt1">22</div>
+<div class="line number23 index22 alt2">23</div>
+<div class="line number24 index23 alt1">24</div>
+<div class="line number25 index24 alt2">25</div>
+<div class="line number26 index25 alt1">26</div>
+<div class="line number27 index26 alt2">27</div>
+<div class="line number28 index27 alt1">28</div>
+<div class="line number29 index28 alt2">29</div>
+<div class="line number30 index29 alt1">30</div>
+<div class="line number31 index30 alt2">31</div>
+<div class="line number32 index31 alt1">32</div>
+<div class="line number33 index32 alt2">33</div>
+<div class="line number34 index33 alt1">34</div>
+<div class="line number35 index34 alt2">35</div>
+<div class="line number36 index35 alt1">36</div>
+<div class="line number37 index36 alt2">37</div>
+<div class="line number38 index37 alt1">38</div>
+<div class="line number39 index38 alt2">39</div>
+<div class="line number40 index39 alt1">40</div>
+<div class="line number41 index40 alt2">41</div>
+<div class="line number42 index41 alt1">42</div>
+<div class="line number43 index42 alt2">43</div>
+<div class="line number44 index43 alt1">44</div>
+<div class="line number45 index44 alt2">45</div>
+<div class="line number46 index45 alt1">46</div>
+<div class="line number47 index46 alt2">47</div>
+<div class="line number48 index47 alt1">48</div>
+<div class="line number49 index48 alt2">49</div>
+<div class="line number50 index49 alt1">50</div>
+<div class="line number51 index50 alt2">51</div>
+<div class="line number52 index51 alt1">52</div>
+<div class="line number53 index52 alt2">53</div>
+<div class="line number54 index53 alt1">54</div>
+<div class="line number55 index54 alt2">55</div>
+<div class="line number56 index55 alt1">56</div>
+<div class="line number57 index56 alt2">57</div>
+<div class="line number58 index57 alt1">58</div>
+<div class="line number59 index58 alt2">59</div>
+<div class="line number60 index59 alt1">60</div>
+<div class="line number61 index60 alt2">61</div>
+<div class="line number62 index61 alt1">62</div>
+<div class="line number63 index62 alt2">63</div>
+<div class="line number64 index63 alt1">64</div>
+<div class="line number65 index64 alt2">65</div>
+<div class="line number66 index65 alt1">66</div>
+<div class="line number67 index66 alt2">67</div>
+<div class="line number68 index67 alt1">68</div>
+<div class="line number69 index68 alt2">69</div>
+<div class="line number70 index69 alt1">70</div>
+<div class="line number71 index70 alt2">71</div>
+<div class="line number72 index71 alt1">72</div>
+<div class="line number73 index72 alt2">73</div>
+<div class="line number74 index73 alt1">74</div>
+<div class="line number75 index74 alt2">75</div>
+<div class="line number76 index75 alt1">76</div>
+<div class="line number77 index76 alt2">77</div>
+<div class="line number78 index77 alt1">78</div>
+<div class="line number79 index78 alt2">79</div>
+<div class="line number80 index79 alt1">80</div>
+<div class="line number81 index80 alt2">81</div>
+<div class="line number82 index81 alt1">82</div>
+<div class="line number83 index82 alt2">83</div>
+<div class="line number84 index83 alt1">84</div>
+<div class="line number85 index84 alt2">85</div>
+<div class="line number86 index85 alt1">86</div>
+<div class="line number87 index86 alt2">87</div>
+<div class="line number88 index87 alt1">88</div>
+<div class="line number89 index88 alt2">89</div>
+<div class="line number90 index89 alt1">90</div>
+<div class="line number91 index90 alt2">91</div>
+<div class="line number92 index91 alt1">92</div>
+<div class="line number93 index92 alt2">93</div>
+<div class="line number94 index93 alt1">94</div>
+<div class="line number95 index94 alt2">95</div>
+<div class="line number96 index95 alt1">96</div>
+<div class="line number97 index96 alt2">97</div>
+<div class="line number98 index97 alt1">98</div>
+<div class="line number99 index98 alt2">99</div>
+<div class="line number100 index99 alt1">100</div>
+<div class="line number101 index100 alt2">101</div>
+<div class="line number102 index101 alt1">102</div>
+<div class="line number103 index102 alt2">103</div>
+<div class="line number104 index103 alt1">104</div>
+<div class="line number105 index104 alt2">105</div>
+<div class="line number106 index105 alt1">106</div>
+<div class="line number107 index106 alt2">107</div>
+<div class="line number108 index107 alt1">108</div>
+<div class="line number109 index108 alt2">109</div>
+<div class="line number110 index109 alt1">110</div>
+<div class="line number111 index110 alt2">111</div>
+<div class="line number112 index111 alt1">112</div>
+<div class="line number113 index112 alt2">113</div>
+<div class="line number114 index113 alt1">114</div>
+<div class="line number115 index114 alt2">115</div>
+<div class="line number116 index115 alt1">116</div>
+<div class="line number117 index116 alt2">117</div>
+<div class="line number118 index117 alt1">118</div>
+<div class="line number119 index118 alt2">119</div>
+<div class="line number120 index119 alt1">120</div>
+<div class="line number121 index120 alt2">121</div>
+<div class="line number122 index121 alt1">122</div>
+<div class="line number123 index122 alt2">123</div>
+<div class="line number124 index123 alt1">124</div>
+<div class="line number125 index124 alt2">125</div>
+<div class="line number126 index125 alt1">126</div>
+<div class="line number127 index126 alt2">127</div>
+<div class="line number128 index127 alt1">128</div>
+<div class="line number129 index128 alt2">129</div>
+<div class="line number130 index129 alt1">130</div>
+<div class="line number131 index130 alt2">131</div>
+<div class="line number132 index131 alt1">132</div>
+<div class="line number133 index132 alt2">133</div>
+<div class="line number134 index133 alt1">134</div>
+<div class="line number135 index134 alt2">135</div>
+<div class="line number136 index135 alt1">136</div>
+<div class="line number137 index136 alt2">137</div>
+<div class="line number138 index137 alt1">138</div>
+<div class="line number139 index138 alt2">139</div>
+<div class="line number140 index139 alt1">140</div>
+<div class="line number141 index140 alt2">141</div>
+<div class="line number142 index141 alt1">142</div>
+<div class="line number143 index142 alt2">143</div>
+<div class="line number144 index143 alt1">144</div>
+<div class="line number145 index144 alt2">145</div>
+<div class="line number146 index145 alt1">146</div>
+<div class="line number147 index146 alt2">147</div>
+<div class="line number148 index147 alt1">148</div>
+<div class="line number149 index148 alt2">149</div>
+<div class="line number150 index149 alt1">150</div>
+<div class="line number151 index150 alt2">151</div>
+<div class="line number152 index151 alt1">152</div>
+<div class="line number153 index152 alt2">153</div>
+<div class="line number154 index153 alt1">154</div>
+<div class="line number155 index154 alt2">155</div>
+<div class="line number156 index155 alt1">156</div>
+<div class="line number157 index156 alt2">157</div>
+<div class="line number158 index157 alt1">158</div>
+<div class="line number159 index158 alt2">159</div>
+<div class="line number160 index159 alt1">160</div>
+<div class="line number161 index160 alt2">161</div>
+<div class="line number162 index161 alt1">162</div>
+<div class="line number163 index162 alt2">163</div>
+<div class="line number164 index163 alt1">164</div>
+<div class="line number165 index164 alt2">165</div>
+<div class="line number166 index165 alt1">166</div>
+<div class="line number167 index166 alt2">167</div>
+<div class="line number168 index167 alt1">168</div>
+<div class="line number169 index168 alt2">169</div>
+<div class="line number170 index169 alt1">170</div>
+<div class="line number171 index170 alt2">171</div>
+<div class="line number172 index171 alt1">172</div>
+<div class="line number173 index172 alt2">173</div>
+<div class="line number174 index173 alt1">174</div>
+<div class="line number175 index174 alt2">175</div>
+<div class="line number176 index175 alt1">176</div>
+<div class="line number177 index176 alt2">177</div>
+<div class="line number178 index177 alt1">178</div>
+<div class="line number179 index178 alt2">179</div>
+<div class="line number180 index179 alt1">180</div>
+<div class="line number181 index180 alt2">181</div>
+<div class="line number182 index181 alt1">182</div>
+<div class="line number183 index182 alt2">183</div>
+<div class="line number184 index183 alt1">184</div>
+<div class="line number185 index184 alt2">185</div>
+<div class="line number186 index185 alt1">186</div>
+<div class="line number187 index186 alt2">187</div>
+<div class="line number188 index187 alt1">188</div>
+<div class="line number189 index188 alt2">189</div>
+<div class="line number190 index189 alt1">190</div>
+<div class="line number191 index190 alt2">191</div>
+<div class="line number192 index191 alt1">192</div>
+<div class="line number193 index192 alt2">193</div>
+<div class="line number194 index193 alt1">194</div>
+<div class="line number195 index194 alt2">195</div>
+<div class="line number196 index195 alt1">196</div>
+<div class="line number197 index196 alt2">197</div>
+<div class="line number198 index197 alt1">198</div>
+<div class="line number199 index198 alt2">199</div>
+<div class="line number200 index199 alt1">200</div>
+<div class="line number201 index200 alt2">201</div>
+<div class="line number202 index201 alt1">202</div>
+<div class="line number203 index202 alt2">203</div>
+<div class="line number204 index203 alt1">204</div>
+<div class="line number205 index204 alt2">205</div>
+<div class="line number206 index205 alt1">206</div>
+<div class="line number207 index206 alt2">207</div>
+<div class="line number208 index207 alt1">208</div>
+<div class="line number209 index208 alt2">209</div>
+<div class="line number210 index209 alt1">210</div>
+<div class="line number211 index210 alt2">211</div>
+<div class="line number212 index211 alt1">212</div>
+<div class="line number213 index212 alt2">213</div>
+<div class="line number214 index213 alt1">214</div>
+<div class="line number215 index214 alt2">215</div>
+<div class="line number216 index215 alt1">216</div>
+<div class="line number217 index216 alt2">217</div>
+<div class="line number218 index217 alt1">218</div>
+<div class="line number219 index218 alt2">219</div>
+<div class="line number220 index219 alt1">220</div>
+<div class="line number221 index220 alt2">221</div>
+<div class="line number222 index221 alt1">222</div>
+<div class="line number223 index222 alt2">223</div>
+<div class="line number224 index223 alt1">224</div>
+<div class="line number225 index224 alt2">225</div>
+<div class="line number226 index225 alt1">226</div>
+<div class="line number227 index226 alt2">227</div>
+<div class="line number228 index227 alt1">228</div>
+<div class="line number229 index228 alt2">229</div>
+<div class="line number230 index229 alt1">230</div>
+<div class="line number231 index230 alt2">231</div>
+<div class="line number232 index231 alt1">232</div>
+<div class="line number233 index232 alt2">233</div>
+<div class="line number234 index233 alt1">234</div>
+<div class="line number235 index234 alt2">235</div>
+<div class="line number236 index235 alt1">236</div>
+<div class="line number237 index236 alt2">237</div>
+<div class="line number238 index237 alt1">238</div>
+<div class="line number239 index238 alt2">239</div>
+<div class="line number240 index239 alt1">240</div>
+<div class="line number241 index240 alt2">241</div>
+<div class="line number242 index241 alt1">242</div>
+<div class="line number243 index242 alt2">243</div>
+<div class="line number244 index243 alt1">244</div>
+<div class="line number245 index244 alt2">245</div>
+<div class="line number246 index245 alt1">246</div>
+<div class="line number247 index246 alt2">247</div>
+<div class="line number248 index247 alt1">248</div>
+<div class="line number249 index248 alt2">249</div>
+<div class="line number250 index249 alt1">250</div>
+<div class="line number251 index250 alt2">251</div>
+<div class="line number252 index251 alt1">252</div>
+<div class="line number253 index252 alt2">253</div>
+<div class="line number254 index253 alt1">254</div>
+<div class="line number255 index254 alt2">255</div>
+<div class="line number256 index255 alt1">256</div>
+<div class="line number257 index256 alt2">257</div>
+<div class="line number258 index257 alt1">258</div>
+<div class="line number259 index258 alt2">259</div>
+<div class="line number260 index259 alt1">260</div>
+<div class="line number261 index260 alt2">261</div>
+<div class="line number262 index261 alt1">262</div>
+<div class="line number263 index262 alt2">263</div>
+<div class="line number264 index263 alt1">264</div>
+<div class="line number265 index264 alt2">265</div>
+<div class="line number266 index265 alt1">266</div>
+<div class="line number267 index266 alt2">267</div>
+<div class="line number268 index267 alt1">268</div>
+<div class="line number269 index268 alt2">269</div>
+<div class="line number270 index269 alt1">270</div>
+<div class="line number271 index270 alt2">271</div>
+<div class="line number272 index271 alt1">272</div>
+<div class="line number273 index272 alt2">273</div>
+<div class="line number274 index273 alt1">274</div>
+<div class="line number275 index274 alt2">275</div>
+<div class="line number276 index275 alt1">276</div>
+<div class="line number277 index276 alt2">277</div>
+<div class="line number278 index277 alt1">278</div>
+<div class="line number279 index278 alt2">279</div>
+<div class="line number280 index279 alt1">280</div>
+<div class="line number281 index280 alt2">281</div>
+<div class="line number282 index281 alt1">282</div>
+<div class="line number283 index282 alt2">283</div>
+<div class="line number284 index283 alt1">284</div>
+<div class="line number285 index284 alt2">285</div>
+<div class="line number286 index285 alt1">286</div>
+<div class="line number287 index286 alt2">287</div>
+<div class="line number288 index287 alt1">288</div>
+<div class="line number289 index288 alt2">289</div>
+<div class="line number290 index289 alt1">290</div>
+<div class="line number291 index290 alt2">291</div>
+<div class="line number292 index291 alt1">292</div>
+<div class="line number293 index292 alt2">293</div>
+<div class="line number294 index293 alt1">294</div>
+<div class="line number295 index294 alt2">295</div>
+<div class="line number296 index295 alt1">296</div>
+<div class="line number297 index296 alt2">297</div>
+<div class="line number298 index297 alt1">298</div>
+<div class="line number299 index298 alt2">299</div>
+
+</td>
+<td class="code">
+<div class="container">
+<div class="line number1 index0 alt2"><code class="java plain">&lt;%@ page language=</code><code class="java string">"java"</code>&nbsp;<code class="java keyword">import</code><code class="java plain">=</code><code class="java string">"java.util.*"</code>&nbsp;<code class="java plain">pageEncoding=</code><code class="java string">"utf-8"</code><code class="java plain">%&gt;</code></div>
+<div class="line number2 index1 alt1"><code class="java plain">&lt;%</code></div>
+<div class="line number3 index2 alt2"><code class="java plain">String path = request.getContextPath();</code></div>
+<div class="line number4 index3 alt1"><code class="java plain">String basePath = request.getScheme()+</code><code class="java string">"://"</code><code class="java plain">+request.getServerName()+</code><code class="java string">":"</code><code class="java plain">+request.getServerPort()+path+</code><code class="java string">"/"</code><code class="java plain">;</code></div>
+<div class="line number5 index4 alt2"><code class="java plain">%&gt;</code></div>
+<div class="line number6 index5 alt1">&nbsp;</div>
+<div class="line number7 index6 alt2"><code class="java plain">&lt;!DOCTYPE HTML PUBLIC&nbsp;</code><code class="java string">"-//W3C//DTD HTML 4.01 Transitional//EN"</code><code class="java plain">&gt;</code></div>
+<div class="line number8 index7 alt1"><code class="java plain">&lt;html&gt;</code></div>
+<div class="line number9 index8 alt2"><code class="java spaces">&nbsp;&nbsp;</code><code class="java plain">&lt;head&gt;</code></div>
+<div class="line number10 index9 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">&lt;title&gt;My JSP&nbsp;</code><code class="java string">'register.jsp'</code>&nbsp;<code class="java plain">starting page&lt;/title&gt;&nbsp;&nbsp;&nbsp;</code></div>
+<div class="line number11 index10 alt2"><code class="java spaces">&nbsp;&nbsp;</code><code class="java plain">&lt;/head&gt;</code></div>
+<div class="line number12 index11 alt1"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number13 index12 alt2"><code class="java spaces">&nbsp;&nbsp;</code><code class="java plain">&lt;body&gt;</code></div>
+<div class="line number14 index13 alt1"><code class="java spaces">&nbsp;&nbsp;</code><code class="java plain">&lt;script type=</code><code class="java string">"text/javascript"</code><code class="java plain">&gt;</code></div>
+<div class="line number15 index14 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">function validate(){</code></div>
+<div class="line number16 index15 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">if</code><code class="java plain">(registerForm.uname.value==</code><code class="java string">""</code><code class="java plain">){</code></div>
+<div class="line number17 index16 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">alert(</code><code class="java string">"账号不能为空!"</code><code class="java plain">);</code></div>
+<div class="line number18 index17 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">return</code><code class="java plain">;</code></div>
+<div class="line number19 index18 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number20 index19 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">if</code><code class="java plain">(registerForm.upwd.value==</code><code class="java string">""</code><code class="java plain">){</code></div>
+<div class="line number21 index20 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">alert(</code><code class="java string">"密码不能为空!"</code><code class="java plain">);</code></div>
+<div class="line number22 index21 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">return</code><code class="java plain">;</code></div>
+<div class="line number23 index22 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number24 index23 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">registerForm.submit();</code></div>
+<div class="line number25 index24 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number26 index25 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">&lt;/script&gt;</code></div>
+<div class="line number27 index26 alt2">&nbsp;</div>
+<div class="line number28 index27 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">&lt;form&nbsp; name=</code><code class="java string">"registerForm"</code>&nbsp;<code class="java plain">action=</code><code class="java string">"DoregServlet"</code>&nbsp;<code class="java plain">method=</code><code class="java string">"post"</code><code class="java plain">&gt;</code></div>
+<div class="line number29 index28 alt2">&nbsp;</div>
+<div class="line number30 index29 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">用户名:&lt;input type=</code><code class="java string">"text"</code>&nbsp;<code class="java plain">name=</code><code class="java string">"uname"</code><code class="java plain">&gt;&lt;br&gt;</code></div>
+<div class="line number31 index30 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">密&nbsp;&nbsp; 码: &lt;input type=</code><code class="java string">"password"</code>&nbsp;<code class="java plain">name=</code><code class="java string">"upwd"</code><code class="java plain">&gt; &lt;br&gt;</code></div>
+<div class="line number32 index31 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">&lt;input type=</code><code class="java string">"submit"</code>&nbsp;<code class="java plain">value=</code><code class="java string">"注册"</code>&nbsp;<code class="java plain">&gt;</code></div>
+<div class="line number33 index32 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">&lt;a href=</code><code class="java string">"denglu.jsp"</code><code class="java plain">&gt;登录&lt;/a&gt;</code></div>
+<div class="line number34 index33 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">&lt;/form&gt;</code></div>
+<div class="line number35 index34 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number36 index35 alt1"><code class="java spaces">&nbsp;&nbsp;</code><code class="java plain">&lt;/body&gt;</code></div>
+<div class="line number37 index36 alt2"><code class="java plain">&lt;/html&gt;</code></div>
+<div class="line number38 index37 alt1">&nbsp;</div>
+<div class="line number39 index38 alt2"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number40 index39 alt1">&nbsp;</div>
+<div class="line number41 index40 alt2"><code class="java keyword">package</code>&nbsp;<code class="java plain">com.servlet;</code></div>
+<div class="line number42 index41 alt1">&nbsp;</div>
+<div class="line number43 index42 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">java.io.IOException;</code></div>
+<div class="line number44 index43 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">java.io.PrintWriter;</code></div>
+<div class="line number45 index44 alt2">&nbsp;</div>
+<div class="line number46 index45 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.ServletException;</code></div>
+<div class="line number47 index46 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServlet;</code></div>
+<div class="line number48 index47 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServletRequest;</code></div>
+<div class="line number49 index48 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServletResponse;</code></div>
+<div class="line number50 index49 alt1">&nbsp;</div>
+<div class="line number51 index50 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">com.dao.UsersDao;</code></div>
+<div class="line number52 index51 alt1">&nbsp;</div>
+<div class="line number53 index52 alt2"><code class="java keyword">public</code>&nbsp;<code class="java keyword">class</code>&nbsp;<code class="java plain">servlet3&nbsp;</code><code class="java keyword">extends</code>&nbsp;<code class="java plain">HttpServlet {</code></div>
+<div class="line number54 index53 alt1">&nbsp;</div>
+<div class="line number55 index54 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java plain">servlet3() {</code></div>
+<div class="line number56 index55 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">super</code><code class="java plain">();</code></div>
+<div class="line number57 index56 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number58 index57 alt1">&nbsp;</div>
+<div class="line number59 index58 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number60 index59 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">destroy() {</code></div>
+<div class="line number61 index60 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">super</code><code class="java plain">.destroy();&nbsp;</code><code class="java comments">// Just puts "destroy" string in log</code></div>
+<div class="line number62 index61 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java comments">// Put your code here</code></div>
+<div class="line number63 index62 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number64 index63 alt1">&nbsp;</div>
+<div class="line number65 index64 alt2">&nbsp;</div>
+<div class="line number66 index65 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">doGet(HttpServletRequest request, HttpServletResponse response)</code></div>
+<div class="line number67 index66 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException, IOException {</code></div>
+<div class="line number68 index67 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">doPost (request, response);</code></div>
+<div class="line number69 index68 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number70 index69 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number71 index70 alt2">&nbsp;</div>
+<div class="line number72 index71 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number73 index72 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">doPost(HttpServletRequest request, HttpServletResponse response)</code></div>
+<div class="line number74 index73 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException, IOException {</code></div>
+<div class="line number75 index74 alt2">&nbsp;</div>
+<div class="line number76 index75 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">String uname = request.getParameter(</code><code class="java string">"uname"</code><code class="java plain">);</code></div>
+<div class="line number77 index76 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">String upwd = request.getParameter(</code><code class="java string">"upwd"</code><code class="java plain">);</code></div>
+<div class="line number78 index77 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">UsersDao usersDao =&nbsp;</code><code class="java keyword">new</code>&nbsp;<code class="java plain">UsersDao();</code></div>
+<div class="line number79 index78 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">int</code>&nbsp;<code class="java plain">i=usersDao.reg(uname, upwd);</code></div>
+<div class="line number80 index79 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">if</code><code class="java plain">(i&gt;</code><code class="java value">0</code><code class="java plain">){</code></div>
+<div class="line number81 index80 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number82 index81 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.setHeader(</code><code class="java string">"refresh"</code><code class="java plain">,&nbsp;</code><code class="java string">"2;url=login.jsp"</code><code class="java plain">);</code></div>
+<div class="line number83 index82 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code><code class="java keyword">else</code><code class="java plain">{</code></div>
+<div class="line number84 index83 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number85 index84 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.setHeader(</code><code class="java string">"refresh"</code><code class="java plain">,&nbsp;</code><code class="java string">"2;url=reg.jsp"</code><code class="java plain">);</code></div>
+<div class="line number86 index85 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number87 index86 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number88 index87 alt1">&nbsp;</div>
+<div class="line number89 index88 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">/**</code></div>
+<div class="line number90 index89 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* Initialization of the servlet. &lt;br&gt;</code></div>
+<div class="line number91 index90 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*</code></div>
+<div class="line number92 index91 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* @throws ServletException if an error occurs</code></div>
+<div class="line number93 index92 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*/</code></div>
+<div class="line number94 index93 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">init()&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException {</code></div>
+<div class="line number95 index94 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java comments">// Put your code here</code></div>
+<div class="line number96 index95 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number97 index96 alt2">&nbsp;</div>
+<div class="line number98 index97 alt1"><code class="java plain">}</code></div>
+<div class="line number99 index98 alt2">&nbsp;</div>
+<div class="line number100 index99 alt1"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number101 index100 alt2">&nbsp;</div>
+<div class="line number102 index101 alt1"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number103 index102 alt2">&nbsp;</div>
+<div class="line number104 index103 alt1"><code class="java keyword">package</code>&nbsp;<code class="java plain">com.sf.servlet;</code></div>
+<div class="line number105 index104 alt2">&nbsp;</div>
+<div class="line number106 index105 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">java.io.IOException;</code></div>
+<div class="line number107 index106 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">java.io.PrintWriter;</code></div>
+<div class="line number108 index107 alt1">&nbsp;</div>
+<div class="line number109 index108 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.ServletException;</code></div>
+<div class="line number110 index109 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServlet;</code></div>
+<div class="line number111 index110 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServletRequest;</code></div>
+<div class="line number112 index111 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServletResponse;</code></div>
+<div class="line number113 index112 alt2">&nbsp;</div>
+<div class="line number114 index113 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">com.sf.dao.MsgDao;</code></div>
+<div class="line number115 index114 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">com.sf.dao.UsersDao;</code></div>
+<div class="line number116 index115 alt1">&nbsp;</div>
+<div class="line number117 index116 alt2"><code class="java keyword">public</code>&nbsp;<code class="java keyword">class</code>&nbsp;<code class="java plain">Doregservlet&nbsp;</code><code class="java keyword">extends</code>&nbsp;<code class="java plain">HttpServlet {</code></div>
+<div class="line number118 index117 alt1">&nbsp;</div>
+<div class="line number119 index118 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">/**</code></div>
+<div class="line number120 index119 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* Constructor of the object.</code></div>
+<div class="line number121 index120 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*/</code></div>
+<div class="line number122 index121 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java plain">Doregservlet() {</code></div>
+<div class="line number123 index122 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">super</code><code class="java plain">();</code></div>
+<div class="line number124 index123 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number125 index124 alt2">&nbsp;</div>
+<div class="line number126 index125 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">/**</code></div>
+<div class="line number127 index126 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* Destruction of the servlet. &lt;br&gt;</code></div>
+<div class="line number128 index127 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*/</code></div>
+<div class="line number129 index128 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">destroy() {</code></div>
+<div class="line number130 index129 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">super</code><code class="java plain">.destroy();&nbsp;</code><code class="java comments">// Just puts "destroy" string in log</code></div>
+<div class="line number131 index130 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java comments">// Put your code here</code></div>
+<div class="line number132 index131 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number133 index132 alt2">&nbsp;</div>
+<div class="line number134 index133 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">doGet(HttpServletRequest request, HttpServletResponse response)</code></div>
+<div class="line number135 index134 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException, IOException {</code></div>
+<div class="line number136 index135 alt1">&nbsp;</div>
+<div class="line number137 index136 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.setContentType(</code><code class="java string">"text/html"</code><code class="java plain">);</code></div>
+<div class="line number138 index137 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">PrintWriter out = response.getWriter();</code></div>
+<div class="line number139 index138 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">request.setCharacterEncoding(</code><code class="java string">"utf-8"</code><code class="java plain">);</code></div>
+<div class="line number140 index139 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">String uname = request.getParameter(</code><code class="java string">"uname"</code><code class="java plain">);</code></div>
+<div class="line number141 index140 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">String upwd = request.getParameter(</code><code class="java string">"upwd"</code><code class="java plain">);</code></div>
+<div class="line number142 index141 alt1">&nbsp;</div>
+<div class="line number143 index142 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">UsersDao ud =&nbsp;</code><code class="java keyword">new</code>&nbsp;<code class="java plain">UsersDao();</code></div>
+<div class="line number144 index143 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">MsgDao md =&nbsp;</code><code class="java keyword">new</code>&nbsp;<code class="java plain">MsgDao();</code></div>
+<div class="line number145 index144 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">if</code>&nbsp;<code class="java plain">(ud.register(uname, upwd) &gt;&nbsp;</code><code class="java value">0</code><code class="java plain">) {</code></div>
+<div class="line number146 index145 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">request.getSession().setAttribute(</code><code class="java string">"uname"</code><code class="java plain">, uname);</code></div>
+<div class="line number147 index146 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">request.getRequestDispatcher(</code><code class="java string">"denglu.jsp"</code><code class="java plain">).forward(request,</code></div>
+<div class="line number148 index147 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response);</code></div>
+<div class="line number149 index148 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}&nbsp;</code><code class="java keyword">else</code>&nbsp;<code class="java plain">{</code></div>
+<div class="line number150 index149 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">out.print(</code><code class="java string">"注册失败，请重新注册......."</code><code class="java plain">);</code></div>
+<div class="line number151 index150 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.setHeader(</code><code class="java string">"refresh"</code><code class="java plain">,&nbsp;</code><code class="java string">"3;url=reg.jsp"</code><code class="java plain">);</code></div>
+<div class="line number152 index151 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number153 index152 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number154 index153 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">doPost(HttpServletRequest request, HttpServletResponse response)</code></div>
+<div class="line number155 index154 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException, IOException {</code></div>
+<div class="line number156 index155 alt1">&nbsp;</div>
+<div class="line number157 index156 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">doGet(request,response);</code></div>
+<div class="line number158 index157 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number159 index158 alt2">&nbsp;</div>
+<div class="line number160 index159 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">/**</code></div>
+<div class="line number161 index160 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* Initialization of the servlet. &lt;br&gt;</code></div>
+<div class="line number162 index161 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*</code></div>
+<div class="line number163 index162 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* @throws ServletException if an error occurs</code></div>
+<div class="line number164 index163 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*/</code></div>
+<div class="line number165 index164 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">init()&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException {</code></div>
+<div class="line number166 index165 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java comments">// Put your code here</code></div>
+<div class="line number167 index166 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number168 index167 alt1">&nbsp;</div>
+<div class="line number169 index168 alt2"><code class="java plain">}</code></div>
+<div class="line number170 index169 alt1">&nbsp;</div>
+<div class="line number171 index170 alt2"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number172 index171 alt1">&nbsp;</div>
+<div class="line number173 index172 alt2"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number174 index173 alt1">&nbsp;</div>
+<div class="line number175 index174 alt2"><code class="java keyword">package</code>&nbsp;<code class="java plain">com.servlet;</code></div>
+<div class="line number176 index175 alt1">&nbsp;</div>
+<div class="line number177 index176 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">java.io.IOException;</code></div>
+<div class="line number178 index177 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">java.io.PrintWriter;</code></div>
+<div class="line number179 index178 alt2">&nbsp;</div>
+<div class="line number180 index179 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.ServletException;</code></div>
+<div class="line number181 index180 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServlet;</code></div>
+<div class="line number182 index181 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServletRequest;</code></div>
+<div class="line number183 index182 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServletResponse;</code></div>
+<div class="line number184 index183 alt1">&nbsp;</div>
+<div class="line number185 index184 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">com.dao.MsgDao;</code></div>
+<div class="line number186 index185 alt1">&nbsp;</div>
+<div class="line number187 index186 alt2"><code class="java keyword">public</code>&nbsp;<code class="java keyword">class</code>&nbsp;<code class="java plain">servlet5&nbsp;</code><code class="java keyword">extends</code>&nbsp;<code class="java plain">HttpServlet {</code></div>
+<div class="line number188 index187 alt1">&nbsp;</div>
+<div class="line number189 index188 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java plain">servlet5() {</code></div>
+<div class="line number190 index189 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">super</code><code class="java plain">();</code></div>
+<div class="line number191 index190 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number192 index191 alt1">&nbsp;</div>
+<div class="line number193 index192 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">destroy() {</code></div>
+<div class="line number194 index193 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">super</code><code class="java plain">.destroy();&nbsp;</code><code class="java comments">// Just puts "destroy" string in log</code></div>
+<div class="line number195 index194 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java comments">// Put your code here</code></div>
+<div class="line number196 index195 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number197 index196 alt2">&nbsp;</div>
+<div class="line number198 index197 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number199 index198 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">doGet(HttpServletRequest request, HttpServletResponse response)</code></div>
+<div class="line number200 index199 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException, IOException {</code></div>
+<div class="line number201 index200 alt2">&nbsp;</div>
+<div class="line number202 index201 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">doPost(request,&nbsp; response);</code></div>
+<div class="line number203 index202 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number204 index203 alt1">&nbsp;</div>
+<div class="line number205 index204 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number206 index205 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">doPost(HttpServletRequest request, HttpServletResponse response)</code></div>
+<div class="line number207 index206 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException, IOException {</code></div>
+<div class="line number208 index207 alt1">&nbsp;</div>
+<div class="line number209 index208 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">request.setCharacterEncoding(</code><code class="java string">"utf-8"</code><code class="java plain">);</code></div>
+<div class="line number210 index209 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number211 index210 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">int</code>&nbsp;<code class="java plain">id=Integer.parseInt(request.getParameter(</code><code class="java string">"id"</code><code class="java plain">));</code></div>
+<div class="line number212 index211 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">MsgDao md=</code><code class="java keyword">new</code>&nbsp;<code class="java plain">MsgDao();</code></div>
+<div class="line number213 index212 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">md.delMail(id);&nbsp;&nbsp;&nbsp;</code></div>
+<div class="line number214 index213 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.getWriter().print(</code><code class="java string">"刪除成功....."</code><code class="java plain">);</code></div>
+<div class="line number215 index214 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.setHeader(</code><code class="java string">"refresh"</code><code class="java plain">,&nbsp;</code><code class="java string">"2;url=main.jsp"</code><code class="java plain">);</code></div>
+<div class="line number216 index215 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.sendRedirect(</code><code class="java string">"main2.jsp"</code><code class="java plain">);</code></div>
+<div class="line number217 index216 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number218 index217 alt1">&nbsp;</div>
+<div class="line number219 index218 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number220 index219 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">init()&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException {</code></div>
+<div class="line number221 index220 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code>&nbsp;</div>
+<div class="line number222 index221 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number223 index222 alt2">&nbsp;</div>
+<div class="line number224 index223 alt1"><code class="java plain">}</code></div>
+<div class="line number225 index224 alt2">&nbsp;</div>
+<div class="line number226 index225 alt1"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number227 index226 alt2">&nbsp;</div>
+<div class="line number228 index227 alt1"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number229 index228 alt2">&nbsp;</div>
+<div class="line number230 index229 alt1"><code class="java spaces">&nbsp;</code>&nbsp;</div>
+<div class="line number231 index230 alt2">&nbsp;</div>
+<div class="line number232 index231 alt1"><code class="java keyword">package</code>&nbsp;<code class="java plain">com.sf.servlet;</code></div>
+<div class="line number233 index232 alt2">&nbsp;</div>
+<div class="line number234 index233 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">java.io.IOException;</code></div>
+<div class="line number235 index234 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">java.io.PrintWriter;</code></div>
+<div class="line number236 index235 alt1">&nbsp;</div>
+<div class="line number237 index236 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.ServletException;</code></div>
+<div class="line number238 index237 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServlet;</code></div>
+<div class="line number239 index238 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServletRequest;</code></div>
+<div class="line number240 index239 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">javax.servlet.http.HttpServletResponse;</code></div>
+<div class="line number241 index240 alt2">&nbsp;</div>
+<div class="line number242 index241 alt1"><code class="java keyword">import</code>&nbsp;<code class="java plain">com.sf.dao.MsgDao;</code></div>
+<div class="line number243 index242 alt2"><code class="java keyword">import</code>&nbsp;<code class="java plain">com.sf.entity.Msg;</code></div>
+<div class="line number244 index243 alt1">&nbsp;</div>
+<div class="line number245 index244 alt2"><code class="java keyword">public</code>&nbsp;<code class="java keyword">class</code>&nbsp;<code class="java plain">Dowriteservlet&nbsp;</code><code class="java keyword">extends</code>&nbsp;<code class="java plain">HttpServlet {</code></div>
+<div class="line number246 index245 alt1">&nbsp;</div>
+<div class="line number247 index246 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">/**</code></div>
+<div class="line number248 index247 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* Constructor of the object.</code></div>
+<div class="line number249 index248 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*/</code></div>
+<div class="line number250 index249 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java plain">Dowriteservlet() {</code></div>
+<div class="line number251 index250 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">super</code><code class="java plain">();</code></div>
+<div class="line number252 index251 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number253 index252 alt2">&nbsp;</div>
+<div class="line number254 index253 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">/**</code></div>
+<div class="line number255 index254 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* Destruction of the servlet. &lt;br&gt;</code></div>
+<div class="line number256 index255 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*/</code></div>
+<div class="line number257 index256 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">destroy() {</code></div>
+<div class="line number258 index257 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">super</code><code class="java plain">.destroy();&nbsp;</code><code class="java comments">// Just puts "destroy" string in log</code></div>
+<div class="line number259 index258 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java comments">// Put your code here</code></div>
+<div class="line number260 index259 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number261 index260 alt2">&nbsp;</div>
+<div class="line number262 index261 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">doGet(HttpServletRequest request, HttpServletResponse response)</code></div>
+<div class="line number263 index262 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException, IOException {</code></div>
+<div class="line number264 index263 alt1">&nbsp;</div>
+<div class="line number265 index264 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.setContentType(</code><code class="java string">"text/html"</code><code class="java plain">);</code></div>
+<div class="line number266 index265 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">PrintWriter out = response.getWriter();</code></div>
+<div class="line number267 index266 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">request.setCharacterEncoding(</code><code class="java string">"utf-8"</code><code class="java plain">);</code></div>
+<div class="line number268 index267 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">String uname = (String) request.getSession().getAttribute(</code><code class="java string">"uname"</code><code class="java plain">);</code></div>
+<div class="line number269 index268 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">String sendto = request.getParameter(</code><code class="java string">"receiver"</code><code class="java plain">);</code></div>
+<div class="line number270 index269 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">String title = request.getParameter(</code><code class="java string">"title"</code><code class="java plain">);</code></div>
+<div class="line number271 index270 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">String content = request.getParameter(</code><code class="java string">"content"</code><code class="java plain">);</code></div>
+<div class="line number272 index271 alt1">&nbsp;</div>
+<div class="line number273 index272 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">Msg m =&nbsp;</code><code class="java keyword">new</code>&nbsp;<code class="java plain">Msg();</code></div>
+<div class="line number274 index273 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">m.setMsgcontent(content);</code></div>
+<div class="line number275 index274 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">m.setUsername(uname);</code></div>
+<div class="line number276 index275 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">m.setSendto(sendto);</code></div>
+<div class="line number277 index276 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">m.setTitle(title);</code></div>
+<div class="line number278 index277 alt1">&nbsp;</div>
+<div class="line number279 index278 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">MsgDao md =&nbsp;</code><code class="java keyword">new</code>&nbsp;<code class="java plain">MsgDao();</code></div>
+<div class="line number280 index279 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">md.addMsg(m);</code></div>
+<div class="line number281 index280 alt2">&nbsp;</div>
+<div class="line number282 index281 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">out.print(</code><code class="java string">"发送成功....."</code><code class="java plain">);</code></div>
+<div class="line number283 index282 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">response.setHeader(</code><code class="java string">"refresh"</code><code class="java plain">,&nbsp;</code><code class="java string">"3;url=main.jsp"</code><code class="java plain">);</code></div>
+<div class="line number284 index283 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number285 index284 alt2">&nbsp;</div>
+<div class="line number286 index285 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">doPost(HttpServletRequest request, HttpServletResponse response)</code></div>
+<div class="line number287 index286 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException, IOException {</code></div>
+<div class="line number288 index287 alt1">&nbsp;</div>
+<div class="line number289 index288 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">doGet(request,response);&nbsp;&nbsp;&nbsp;&nbsp; }</code></div>
+<div class="line number290 index289 alt1">&nbsp;</div>
+<div class="line number291 index290 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">/**</code></div>
+<div class="line number292 index291 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* Initialization of the servlet. &lt;br&gt;</code></div>
+<div class="line number293 index292 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*</code></div>
+<div class="line number294 index293 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">* @throws ServletException if an error occurs</code></div>
+<div class="line number295 index294 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java preprocessor">*/</code></div>
+<div class="line number296 index295 alt1"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java keyword">public</code>&nbsp;<code class="java keyword">void</code>&nbsp;<code class="java plain">init()&nbsp;</code><code class="java keyword">throws</code>&nbsp;<code class="java plain">ServletException {</code></div>
+<div class="line number297 index296 alt2"><code class="java spaces">&nbsp;&nbsp;&nbsp;&nbsp;</code><code class="java plain">}</code></div>
+<div class="line number298 index297 alt1">&nbsp;</div>
+<div class="line number299 index298 alt2"><code class="java plain">}</code></div>
+
+</div>
+
+</td>
+
+</tr>
+
+</tbody>
+
+</table>
+</div>
+<div class="clear"></div>
+<div id="blog_post_info_block" role="contentinfo">
+    <div id="blog_post_info"></div>
+    <div class="clear"></div>
+    <div id="post_next_prev"></div>
+</div>
+            </div>
+            <div class="postDesc">posted @
+<span id="post-date" data-last-update-days="966.675899569125" data-date-created="BlogServer.Application.Dto.BlogPost.BlogPostDto" data-date-updated="2022-05-29 20:20">2022-05-29 20:20</span>&nbsp;
+<a href="https://www.cnblogs.com/xu-tao">徐涛%</a>&nbsp;
+阅读(<span id="post_view_count">70</span>)&nbsp;
+评论(<span id="post_comment_count">0</span>)&nbsp;
+<a href="https://i.cnblogs.com/EditPosts.aspx?postid=16324793" rel="nofollow">编辑</a>&nbsp;
+<a href="javascript:void(0)" onclick="AddToWz(16324793);return false;">收藏</a>&nbsp;
+<a href="javascript:void(0)" onclick="reportManager.report({ currentUserId: '', targetType: 'blogPost', targetId: '16324793', targetLink: 'https://www.cnblogs.com/xu-tao/p/16324793.html', title: '第十三周作业' })">举报</a>
+</div>
+        </div>
+
+
+    </div><!--end: topics 文章、评论容器-->
+</div>
+<script>
+    var cb_entryId = 16324793, cb_entryCreatedDate = '2022-05-29 20:20', cb_postType = 1, cb_postTitle = '第十三周作业';
+    var allowComments = true, cb_blogId = 670312, cb_blogApp = 'xu-tao', cb_blogUserGuid = '3b8515f7-2880-471d-6fb4-08d8d71b3f30';
+    mermaidRender.render()
+    markdown_highlight()
+    zoomManager.apply("#cnblogs_post_body img:not(.code_img_closed):not(.code_img_opened)");
+</script>
+<a id="!comments"></a>
+<div id="blog-comments-placeholder"></div>
+<div id="comment_form" class="commentform">
+    <a name="commentform"></a>
+    <div id="divCommentShow"></div>
+    <div id="comment_nav">
+        <div class="comment-nav-right">
+            <span id="span_refresh_tips"></span><a href="#" onclick="return RefreshPage();">刷新页面</a><a href="#top">返回顶部</a>
+        </div>
+    </div>
+    <div id="comment_form_container"></div>
+    <div class="ad_text_commentbox" id="ad_text_under_commentbox"></div>
+        <div id="cnblogs_ch"></div>
+    <div id="opt_under_post"></div>
+        <div id="blog_c1" class="under-post-card">
+            <a href="https://www.doubao.com?channel=cnblogs&amp;source=hw_db_cnblogs" rel="nofollow" target="_blank" onclick="countCreativeClicks('C1-字节-豆包')">
+                <img src="https://img2024.cnblogs.com/blog/35695/202412/35695-20241201072501456-2052907165.jpg" onload="countCreativeImpressions('C1-字节-豆包')" alt="" />
+                <span id="c1_impression" style="display:none"></span>
+            </a>
+        </div>
+    <div id="under_post_card1"></div>
+    <div id="under_post_card2"></div>
+    <div id="HistoryToday" class="under-post-card"></div>
+    <script type="text/javascript">
+        var commentManager = new blogCommentManager();
+        commentManager.renderComments(0);
+        fixPostBody();
+        window.footnoteTipManager.generateFootnoteTips();
+
+            window.tocManager.displayDisableTocTips = false;
+            window.tocManager.generateToc();
+
+                setTimeout(function() { countViews(cb_blogId, cb_entryId); }, 50);
+
+            deliverT2();
+            deliverC1C2();
+            loadNewsAndKb();
+
+                LoadPostCategoriesTags(cb_blogId, cb_entryId);
+
+            LoadPostInfoBlock(cb_blogId, cb_entryId, cb_blogApp, cb_blogUserGuid);
+            GetPrevNextPost(cb_entryId, cb_blogId, cb_entryCreatedDate, cb_postType);
+            loadOptUnderPost();
+            GetHistoryToday(cb_blogId, cb_blogApp, cb_entryCreatedDate);
+                </script>
+</div>
+
+	</div><!--end: forFlow -->
+	</div><!--end: mainContent 主体内容容器-->
+	<div id="sideBar">
+		<div id="sideBarMain">
+			<div id="sidebar_news" class="newsItem">
+    <h3 class="catListTitle">公告</h3>
+<div id="blog-news">
+    <div id="sidebar_news_content">
+    </div>
+</div>
+<script>loadBlogNews();</script>
+
+
+</div>
+<div id="sidebar_c3"></div>
+			<div id="blog-calendar" style="display:none"></div><script>loadBlogDefaultCalendar();</script>
+			<div id="leftcontentcontainer">
+				<div id="blog-sidecolumn"></div>
+                    <script>loadBlogSideColumn();</script>
+			</div>
+		</div><!--end: sideBarMain -->
+	</div><!--end: sideBar 侧边栏容器 -->
+	<div class="clear"></div>
+	</div><!--end: main -->
+	<div class="clear"></div>
+	<div id="footer">
+		<!--done-->
+Copyright &copy; 2025 徐涛%
+<br /><span id="poweredby">Powered by .NET 9.0 on Kubernetes</span>
+
+
+
+	</div><!--end: footer -->
+</div><!--end: home 自定义的最大容器 -->
+
+
+
+
+
+    <input type="hidden" id="antiforgery_token" value="CfDJ8DfB03_iObVLoqH7ndAeeDgJ7PhmqinJvexUgb-JivwQJswnD1rZXEfI76cPbD2sNpzDvjP2hig0_NBd-e1VFJfxNNdKjcHEA7C-8Fr5plsJV9m3w6h6gApBmIM2eu3lhvffyq8zMG24S7Ce443GP44" />
+    <script async src="https://www.googletagmanager.com/gtag/js?id=G-M95P3TTWJZ"></script>
+<script>
+    window.dataLayer = window.dataLayer || [];
+    function gtag() { dataLayer.push(arguments); }
+    gtag('js', new Date());
+    gtag('config', 'G-M95P3TTWJZ');
+</script>
+<script defer src="https://hm.baidu.com/hm.js?866c9be12d4a814454792b1fd0fed295"></script>
+</body>
+</html>
\ No newline at end of file
diff --git a/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_to_content_list_complex_res.json b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_to_content_list_complex_res.json
index f1c6da6a..b0baf47d 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_to_content_list_complex_res.json
+++ b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_to_content_list_complex_res.json
@@ -3,6 +3,7 @@
     "raw_content": "<cctable table_type=\"complex\" html='&lt;table id=\\\"wp-calendar\\\"&gt;\\n\\t&lt;caption&gt;ফেব্রুয়ারি ২০২৪&lt;/caption&gt;\\n\\t&lt;thead&gt;\\n\\t&lt;tr&gt;\\n\\t\\t&lt;th scope=\\\"col\\\" title=\\\"সোমবার\\\"&gt;সোম&lt;/th&gt;\\n\\t\\t&lt;th scope=\\\"col\\\" title=\\\"মঙ্গলবার\\\"&gt;মঙ্গল&lt;/th&gt;\\n\\t\\t&lt;th scope=\\\"col\\\" title=\\\"বুধবার\\\"&gt;বুধ&lt;/th&gt;\\n\\t\\t&lt;th scope=\\\"col\\\" title=\\\"বৃহষ্পতিবার\\\"&gt;বৃহ&lt;/th&gt;\\n\\t\\t&lt;th scope=\\\"col\\\" title=\\\"শুক্রবার\\\"&gt;শুক্র&lt;/th&gt;\\n\\t\\t&lt;th scope=\\\"col\\\" title=\\\"শনিবার\\\"&gt;শনি&lt;/th&gt;\\n\\t\\t&lt;th scope=\\\"col\\\" title=\\\"রবিবার\\\"&gt;রবি&lt;/th&gt;\\n\\t&lt;/tr&gt;\\n\\t&lt;/thead&gt;\\n\\n\\t&lt;tfoot&gt;\\n\\t&lt;tr&gt;\\n\\t\\t&lt;td colspan=\\\"3\\\" id=\\\"prev\\\"&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/01/\\\" title=\\\"View posts for জানুয়ারি ২০২৪\\\"&gt;« জানুয়ারি&lt;/a&gt;&lt;/td&gt;\\n\\t\\t&lt;td class=\\\"pad\\\"&gt; &lt;/td&gt;\\n\\t\\t&lt;td colspan=\\\"3\\\" id=\\\"next\\\" class=\\\"pad\\\"&gt; &lt;/td&gt;\\n\\t&lt;/tr&gt;\\n\\t&lt;/tfoot&gt;\\n\\n\\t&lt;tbody&gt;\\n\\t&lt;tr&gt;\\n\\t\\t&lt;td colspan=\\\"3\\\" class=\\\"pad\\\"&gt; &lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/01/\\\" title=\\\"আজ অমর একুশে বইমেলা উদ্বোধন করবেন প্রধানমন্ত্রী, ভাষার মাসের প্রথম দিনে বাংলায় আদেশ দিলেন হাইকোর্ট, ৯ মামলায় মির্জা আব্বাসের গ্রেপ্তার ও জামিন শুনানি আজ, দেশের বিভিন্নস্থানে গুঁড়ি গুঁড়ি বৃষ্টি, আমদানি করা ডিম কেন দেশে আসছে না, শিক্ষার্থীদের অর্থ সহায়তা দেবে প্রধানমন্ত্রীর তহবিল, আবেদন শুরু আজ, বইমেলার উদ্বোধন করলেন প্রধানমন্ত্রী, জামিন পেলেন না মির্জা ফখরুল, বিশ্ব ইজতেমায় প্রাণ গেল আরও এক মুসল্লির, মির্জা আব্বাস আরো ৯ মামলায় গ্রেফতার, গাজায় নিহতের সংখ্যা ২৭ হাজার ছাড়াল, বিশ্ব ইজতেমা ময়দানে মুসলধারে  বৃষ্টি, বিশ্ব ইজতেমায় ৪৩ দেশের ১৫৬৯ মুসুল্লি এসেছেন, বিশ্ব ইজতেমা শুরু হবে মাওলানা আহমেদ লাটের আম বয়ানের মাধ্যমে, বিশ্ব ইজতেমার মূলপ্যান্ডেল পরিপূর্ণ রাস্তার পাশে জামাতের তাবু, রিজার্ভ নামল ১৯ বিলিয়ন ডলারের ঘরে, বইমেলা আমাদের প্রাণের মেলা : প্রধানমন্ত্রী\\\"&gt;১&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/02/\\\" title=\\\"আল্লাহু আকবার ধ্বনিতে প্রকম্পিত টঙ্গী তুরাগ তীর, ইরানি টার্গেটে হামলার পরিকল্পনা অনুমোদন যুক্তরাষ্ট্রের, ডিএমপির ৪৯তম প্রতিষ্ঠা দিবস পালিত, বিশ্ব ইজতেমার ইতিকথা, বিশ্ব ইজতেমায় লাখো মুসল্লীর জুমার নামাজ আদায়, সন্ধ্যা নামতেই বইমেলায় মানুষের ঢল, রাখাইনের রাজধানীতে কারফিউ জারি, বিশ্ব ইজতেমায় পুলিশ সদস্য সহ সাত জনের মৃত্যু, সাংবাদিক সম্মেলনে দাবী,  আমরা জুবায়ের পন্থী না, শূরায়ে নেজাম\\\"&gt;২&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/03/\\\" title=\\\"বিশ্ব ইজতেমায়  কাল আখেরী মোনাজাত, সিরিয়ায় মার্কিন হামলায় ১৮ ইরানপন্থি যোদ্ধা নিহত, ড. ইউনূসের বিচারিক-প্রক্রিয়া নিয়ে মার্কিন পররাষ্ট্র দফতরের আহ্বান, আইনমন্ত্রীর ‘৫০ বছর তত্ত্বে’ সাগর-রুনি পরিবারে অনন্ত হতাশা, কাল সকাল নয়টায় আখেরী মোনাজাত আজ মধ্যরাত থেকে গণপরিবহন বন্ধ, ইজতেমায় দেড়শ তোলা রুপা বা তার সমমূল্য অর্থের মোহরানায় ৭২টি বিয়ে, ইজতেমায় ট্যুরিস্ট পুলিশকে ধন্যবাদ ও কৃতজ্ঞতা জানালেন এক বিদেশী নাগরিক, বিশ্ব ইজতেমায় আরো তিন মুসল্লির মৃত্যু এনিয়ে মৃত্যুর সংখ্যা দশজন, ৫ রানের হারে স্বপ্নভঙ্গ বাংলাদেশের, গাজীপুরে ৪ ঘণ্টার চেষ্টায় কারখানার আগুন নিয়ন্ত্রণে\\\"&gt;৩&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/04/\\\" title=\\\"বিশ্ব ইজতেমায় আলমী শূরার আজ আখেরী মোনাজাত, আখেরী মোনাজাতে আমিন আমিন ধ্বনিতে কেঁপে উঠে কহর দরিয়ার ইজতেমা ময়দান, গোলাগুলি চলছেই, আতঙ্কে বাড়িঘর ছাড়ছেন সীমান্তের বাসিন্দারা, বাংলাদেশের নির্বাচন অবাধ ও সুষ্ঠু হয়নি : পিটার হাস, আখেরী মোনাজাত শেষে ঘরে ফেরা মানুষের ঢল, বিজিবি ক্যাম্পে আশ্রয় নিয়েছে মিয়ানমারের ১৪ পুলিশ, আরও বাড়লো এলপি গ্যাসের দাম, সীমান্তে ব্যাপক সংঘর্ষ, বাংলাদেশে আশ্রয় নিলো মিয়ানমার বর্ডার পুলিশের ৭০ সদস্য, চার ধাপে উপজেলা নির্বাচন, এপ্রিলের শেষে শুরু, প্রধানমন্ত্রীকে বাইডেনের চিঠি, নতুন করে বাড়ি-গাড়ি করতে পারবেন না ঋণ খেলাপিরা\\\"&gt;৪&lt;/a&gt;&lt;/td&gt;\\n\\t&lt;/tr&gt;\\n\\t&lt;tr&gt;\\n\\t\\t&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/05/\\\" title=\\\"নিরাপদ পানি না থাকলে মারা যাবে আরও অনেক ফিলিস্তিনি, বিশ্ব ইজতেমায় পুলিশি নিষেধাজ্ঞা প্রত্যাহার মহাসড়কে যানবাহন চলাচল স্বাভাবিক, বিশ্ব ইজতেমা ময়দান থেকে বাড়ি ফেরা হল না আলীমের, ইজতেমা ময়দান খালি হচ্ছে ময়লার দুর্গন্ধে বাতাস বিষাক্ত, যানবাহন সংকটে যাত্রী বিড়ম্বনা,  ভাড়া বেশী, ইজতেমায় ফিলিস্তিনিদের জন্য ৫০ টি পয়েন্টে সাহায্য তুলেছে   হাফেজ্জী হুজুর ফাউন্ডেশন, ভারতকে হারিয়ে ফাইনালে বাংলাদেশ, বাতিল হচ্ছে না বিতর্কিত শরীফার গল্প, ভোটের রাতে সঙ্ঘবদ্ধ ধর্ষণ : নোয়াখালীতে ১০ জনের ফাঁসি, জামিন পেলেন মামুনুল হক, মিয়ানমার থেকে আসা মর্টারশেলে বাংলাদেশিসহ নিহত ২, আসছে দুর্বল ব্যাংককে একীভূত করার নীতিমালা, সংরক্ষিত নারী আসনের তফসিল মঙ্গলবার, ভালুকায় ইজতেমা থেকে ফেরার পথে দুই মাদরাসা ছাত্র নিহত : আহত ১৫, সশস্ত্রবাহিনী ও বিজিবিকে ধৈর্য ধরার নির্দেশ প্রধানমন্ত্রীর, নাইক্ষ্যংছড়ির ৫টি বিদ্যালয় বন্ধ ঘোষণা, সারাদেশ থেকে কয়েক হাজার ভিক্ষুক এসেছিল ইজতেমায়, ঘুমধুম সীমান্তে ৪০০ চাকমা বাংলাদেশে অনুপ্রবেশের অপেক্ষায়\\\"&gt;৫&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/06/\\\" title=\\\"বগুড়া জেলার   ধুনটে “ভুট্টা ক্ষেতে” গৃহবধুকে ধর্ষণের চেষ্টা! আটক ১, মিয়ানমার থেকে পালিয়ে বাংলাদেশে আরো ৭ বিজিপি সদস্য, পরাজয়ের দ্বারপ্রান্তে মিয়ানমারের জান্তা?, সাগর-রুনী হত্যাকাণ্ডের তদন্তে গভীরে যেতে হচ্ছে : আইনমন্ত্রী, বিশ্ব ইজতেমা ময়দান প্রশাসনের মধ্যস্থতায় সাদ পন্থীদের কাছে হস্তান্তর, টঙ্গীতে নির্বাচনী সহিংসতার পৃথক ঘটনায় ৪ কলেজ ছাত্র সহ ১৭ জন আহত, আটক ৬,, প্রধানমন্ত্রীর কাছে আবেদন আমাদের এক করে দিন, কবরস্থানে মৃতদের সঙ্গে থাকছেন গাজার অনেক মানুষ, বিনোদন কেন্দ্রের কর্মীদের হাতে লাঞ্চিত হয়েছে নারী-শিশুসহ এক পরিবারের সাত সদস্য।, হেলমেট পরে ঘরে ঢুকে শিশুকে হত্যা করল ২ যুবক, পালিয়ে বাঁচল বোন, উপজেলা নির্বাচন হবে ৪ ধাপে, প্রথম দফায় ভোটগ্রহণ ৪ মে\\\"&gt;৬&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/07/\\\" title=\\\"কাজিপুরে ঘুষের টাকা ফেরতের দাবিতে শিক্ষিকার লাশ নিয়ে স্কুলে বিক্ষোভ, বগুড়ায় বীর মুক্তিযোদ্ধাদের যুদ্ধকালীন বীরত্বগাথা শুনলেন কোমলমতি শিক্ষার্থীরা, সীমান্ত এখন জনমানবশূন্য, নিরাপদ আশ্রয়ের খোঁজে স্থানীয়রা, ৪৪ হাজার কোটা খালি রেখেই শেষ হলো হজ নিবন্ধন, সবুজ থেকে টুসির ঘরে সেই শিক্ষা অফিসার!, আশুলিয়া-আবদুল্লাহপুর এলিভেটেড এক্সপ্রেসওয়ে র নির্মাণ কাজে ধীরগতিতে জনদুর্ভোগ, মালয়েশিয়ান গৃহবধূকে ডাকাতদের প্রশ্ন হয়ার আর ইউ ফর্ম!, বিশ্ব ইজতেমার দ্বিতীয় পর্বের প্রস্তুতি চলছে জোরেশোরে, আজ সন্ধ্যা ৭ টার মধ্যে মাওলানা সাদকে আসার অনুমতি দিন— সাংবাদিক সম্মেলনে দাবী, স্ত্রীকে খাটে বেঁধে স্বামীর আত্মহত্যা, অভিনেতা আহমেদ রুবেল মারা গেছেন, ভোটের আগের দিন পাকিস্তানে পরপর বিস্ফোরণে নিহত ২৬, বিশ্ব ইজতেমা ময়দানে পৌছেছেন মাওলানা সাদের তিন ছেলে, নিরাপত্তা জোরদার\\\"&gt;৭&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/08/\\\" title=\\\"পর্যটকের উপর হামলার ঘটনায় তিনজনকে গ্রেফতার করেছে পুলিশ, অনির্দিষ্টকালের জন্য সেন্টমার্টিন ভ্রমণে নিষেধাজ্ঞা, মিয়ানমার পরিস্থিতি নিয়ে একস‌ঙ্গে কাজ করতে সম্মত বাংলাদেশ-ভারত, শুভেচ্ছা জানিয়ে শেখ হাসিনাকে ঋষি সুনাকের চিঠি, উত্তরায় রাজউকের উচ্ছেদ অভিযান, কাপাসিয়ায় নাশেরা উচ্চ বিদ্যালয়ের ম্যানেজিং কমিটির নির্বাচন জমে উঠেছে, সিরাজগঞ্জে ট্রাকচাপায় প্রাণ গেল ২ জনের, ফতুল্লায় পোশাক কারখানা গ্যাস পাইপলাইন বিস্ফোরণ, দগ্ধ ১৪, চরম নাটকীয়তার ফাইনালে ‘টস’ জিতে শিরোপা ভারতের, আপত্তি বাংলাদেশের, আ. লীগের টিকিটে সংরক্ষিত এমপি হতে চান ১৫৪৯ জন নারী, বিশ্ব ইজতেমা ময়দানে ক্রিকেটার মুশফিকুর রহিম, হাসপাতালে  খালেদা জিয়া, বান্দরবান থেকে কক্সবাজারে সরিয়ে নেয়া হলো ১০০ বিজিপি সদস্যকে\\\"&gt;৮&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/09/\\\" title=\\\"আদমদীঘিতে অনুমোদন ছাড়াই তিন ফসলি জমিতে নির্মাণ করা হচ্ছে হিমাগার, আম বয়ানে শুরু ইজতেমার দ্বিতীয় পর্ব, ইজতেমার দ্বিতীয় পর্বের শুরুতেই ৬ মুসল্লির মৃত্যু, টাকার সঙ্কটে ভর্তুকির দায় শোধ হচ্ছে বন্ডে, ভারত-মিয়ানমার সীমান্তে কাঁটাতার বসানোর প্রস্তুতি, তুরাগতীরে দেশের বৃহত্তম জুমার জামাত অনুষ্ঠিত, পাকিস্তানে হাড্ডাহাড্ডি লড়াই, ফের এগিয়ে ইমরানের দলের স্বতন্ত্ররা, গোলাগুলি আর মর্টার শেল বিস্ফোরণে কাঁপল টেকনাফ সীমান্ত, স্কুল ঘেরাওয়ের হুমকি দিচ্ছেন ভিকারুননিসার সেই শিক্ষক\\\"&gt;৯&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/10/\\\" title=\\\"“আমরা স্বপ্ন দেখি বাংলাদেশের প্রতিটি মানুষ নিজের রক্তের গ্রুপ নিজে জানবে” বিডিইউ শিক্ষার্থী, সেনা-সীমান্তরক্ষীদের ফি‌রিয়ে নিতে আসছে মিয়ানমারের জাহাজ, বিশ্ব ইজতেমা : টঙ্গী ধর্মীয় নগরীতে পরিণত, আ.লীগ নেতাকে পিটিয়ে হত্যা, ছাত্রলীগের দুই নেতা গ্রেপ্তার, কুষ্টিয়ায় দুই দিনে কেজিতে পেঁয়াজের দাম বেড়েছে ৩০ টাকা, ভোটের দুই দিন পর ১৪ মামলায় জামিন পেলেন ইমরান খান, জাপার জনপ্রিয়তায় ধস নেমেছে : রওশন এরশাদ, এবারের নির্বাচন কেউ প্রশ্নবিদ্ধ করতে পারেনি\\\"&gt;১০&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/11/\\\" title=\\\"প্রধানমন্ত্রী কে হবেন, সিদ্ধান্ত নেবেন ইমরান : পিটিআই চেয়ারম্যান, সাদ সাহেব আসতে পারলে ২৫ হাজারের বেশী বিদেশি মেহমান আসত, ৫৭ তম বিশ্ব ইজতেমার শেষ রজনীতে ইবাদত বন্দেগী ও দ্বীনি আমল, বিশ্ব ইজতেমায় শ্রীলংকান নাগরিকসহ ১৪ জোড়া বর- কনের  পরিচিতি, আজ আখেরী মোনাজাত, আখেরী মোনাজাতে আমিন আমিন ধ্বনিতে প্রকম্পিত তুরাগ তীর, কুমিল্লায় সড়ক দুর্ঘটনায় নিহত বেড়ে ৫, নওয়াজকে নিরাশ করে যেভাবে সরকার গঠন করতে পারে ইমরানের অনুগতরা, গাজায় জাতিসংঘ সদর দপ্তরের নিচে হামাসের কমান্ড টানেল: ইসরায়েল, এমবিবিএস ভর্তি পরীক্ষার ফল প্রকাশ\\\"&gt;১১&lt;/a&gt;&lt;/td&gt;\\n\\t&lt;/tr&gt;\\n\\t&lt;tr&gt;\\n\\t\\t&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/12/\\\" title=\\\"শবে বরাত কবে, জানাল ইসলামিক ফাউন্ডেশন, উত্তরপত্র ছিঁড়লেন পর্যবেক্ষক, হাউমাউ করে কাঁদলেন শিক্ষার্থী, ‘ভোটে কখনও না হারা’ সেনাবাহিনীর রেকর্ড গুঁড়িয়ে দিতে পারবেন ইমরান?, সূর্যমুখী সেলে আদম তমিজি একাই থাকেন, সময় কাটে নীরবে, মিয়ানমারের সেনা-বিজিপি সদস্যরা ফেরত যাবে কবে?, উড়ছে হাজারো পলিথিন, ভাসছে অসহনীয় দুর্গন্ধ, এখনো জ্বলছে আলো!, শাহজাদপুরে যমুনা নদীতে ভাঙন, ৭ গ্রামের ২ শতাধিক বাড়ি-ঘর বিলিন হওয়ার পথে, আনসার বাহিনীকে স্মার্ট ও আধুনিক করতে কাজ চলছে, সরকার গঠন নয়, বিরোধী দল হিসেবে সংসদে যাওয়ার ইঙ্গিত পিটিআইয়ের, চট্টগ্রামে পুলিশ-হকার দফায় দফায় সংঘর্ষ, গুলিবিদ্ধ ১, ভারতের কাছে দেড় লাখ টন চিনি-পেঁয়াজ চেয়েছে বাংলাদেশ, মন্ত্রিসভার আকার বাড়ানো হবে : কাদের, ‘আড়াই বছর করে প্রধানমন্ত্রী’ শর্তে পাকিস্তানে গঠিত হতে পারে সরকার\\\"&gt;১২&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/13/\\\" title=\\\"বগুড়ায় সাংবাদিক ইউনিয়নের নির্বাচনে রউফ সভাপতি, রানা সা. সম্পাদক, বগুড়ায় আমিও জিততে চাই শিরোনামে ইয়ুথ ফেয়ার অনুষ্ঠিত, এক বছরে খেলাপি ঋণ বেড়েছে ২৫ হাজার কোটি টাকা, হঠাৎ পিটার হাসের সঙ্গে সাক্ষাৎ করলেন মঈন খান, সাকিব অধ্যায়ের ইতি, নতুন অধিনায়ক শান্ত, আনুষ্ঠানিকভাবে সমাপ্ত হল ৫৭তম বিশ্ব ইজতেমা, অতিরিক্ত ভালোবাসা ঠিক নয়!, নির্বাচন কীভাবে আরও স্বচ্ছ হয় তা নিয়ে কাজ করা উচিত : সিইসি, পিটিআইয়ের সরকার গঠন করতে চান ইমরান খান, বন প্রহরী কর্তৃক অসদাচরণের শিকার হয়েছেন সাংবাদিক মোজাহিদ, প্রাথমিকের দ্বিতীয় ধাপের পরীক্ষার ফল আগামী সপ্তাহে হতে পারে\\\"&gt;১৩&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/14/\\\" title=\\\"আজ বসন্ত, আজ ভালোবাসার দিন, ফুলের দোকানে সংবাদ সংগ্রহে যাওয়া তিন সাংবাদিকের ওপর হামলা, রাখাইনের বাংলাদেশ মিশনের সবাইকে ইয়াঙ্গুনে নেওয়া হয়েছে, ‘ভালোবাসার’ এক গোলাপ ১০০ টাকা!, ৭ দিনব্যাপী ‘হাইওয়ে পুলিশের সেবা সপ্তাহ, বগুড়ায় ১২টি উপজেলার প্রার্থীরা নির্বাচনী প্রচারণায় আদাজল খেয়ে  মাঠে নেমেছেন, আমার ভালোবাসা আছে লাগবে না সাজুগুজু দেখলে ভালো লাগে, টঙ্গীর শিশু উন্নয়ন কেন্দ্রের বন্দির মৃত্যু নির্যাতনে মৃত্যুর অভিযোগ পরিবারের, যুদ্ধ বন্ধে জেলেনস্কির সঙ্গে বৈঠক করবেন প্রধানমন্ত্রী, পাকিস্তানের প্রেসিডেন্ট হচ্ছেন জারদারি\\\"&gt;১৪&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/15/\\\" title=\\\"এসএসসি শুরু আজ, পরীক্ষার্থী ২০ লাখেরও বেশি, সংরক্ষিত আসনে আওয়ামী লীগের প্রার্থী হলেন যারা, নতুন শিক্ষা ব্যবস্থা পরিবর্তনের পরিকল্পনা নেই : শিক্ষামন্ত্রী, রোহিঙ্গাদের কারণে বাংলাদেশের নিরাপত্তা ঝুঁকি তৈ‌রি হ‌য়ে‌ছে, বগুড়ায় শুরু হচ্ছে ৪র্থ আন্তর্জাতিক চলচ্চিত্র উৎসব, লেবাননে ইসরায়েলের ব্যাপক হামলা, শিশুসহ নিহত ৯, সাবেক এমপি হাবিব হাসানের সাথে তুরাগ থানা শ্রমিকলীগের নতুন কমিটির সাক্ষাৎ, পাকিস্তানজুড়ে বিক্ষোভের ঘোষণা পিটিআইয়ের, সংরক্ষিত আসনে জাপার মনোনয়ন পেলেন সালমা ইসলাম ও নূরুন নাহার, বিজয় না আসা পর্যন্ত গণতন্ত্র ফেরানোর আন্দোলন চলবে : ফখরুল, শনিবার থেকে ৮ মিনিট পরপর চলবে মেট্রোরেল\\\"&gt;১৫&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/16/\\\" title=\\\"গাজায় নিহত আরও ৮৭, প্রাণহানি বেড়ে প্রায় ২৮ হাজার ৭০০, বগুড়ায় এসএসসি ও সমমানের পরীক্ষায় ৬ শিক্ষার্থী ও ৬ শিক্ষক বহিস্কৃত, সাংবাদিকের দ্বিখণ্ডিত মরদেহ উদ্ধার, মৃত্যু নিয়ে প্রশ্ন, বৈশ্বিক গণতান্ত্রিক সূচকে বাংলাদেশের অবনতি, ময়মনসিংহে বাসচাপায় অটোরিকশার ৭ যাত্রী নিহত, মির্জা ফখরুল আবারও দিবাস্বপ্নে বিভোর হয়ে পড়েছেন : কাদের, ড. ইউনূসকে নিয়ে যে খবর পাচ্ছি, তাতে আমরা খুবই উদ্বিগ্ন: জাতিসংঘ, এবার টেকনাফের শাহপরীরদ্বীপ ও সেন্টমার্টিন সীমান্তে গোলাগুলির শব্দ, নোয়াখালীর বেগমগঞ্জে বাবার দাফনের চার ঘণ্টা পর ছেলের মৃত্যু হয়েছে।, সংসার ভাঙল মাহিয়া মাহির\\\"&gt;১৬&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/17/\\\" title=\\\"ছাত্রী ধর্ষণ চেষ্টার অভিযোগে চবি শিক্ষক বহিষ্কার, বিশ্ব নেতাদের প্রতি যে প্রস্তাব রাখলেন প্রধানমন্ত্রী, রাশিয়ার বিরোধী নেতা নাভালনির কারাগারে মৃত্যু, রাষ্ট্রীয় মর্যাদায় মুক্তিযোদ্ধা হামিদুল ইসলাম মতির দাফন সম্পন্ন, শেরপুরে রাস্তা রক্ষার দাবীতে গ্রামবাসীর মানব বন্ধন, প্রতারণা মামলায় ট্রাম্পকে ৩৫৪ মিলিয়ন ডলার জরিমানা, নাটকীয় সিদ্ধান্ত নিলো ইমরান খানের দল, কেজিতে ১০ থেকে ২০ টাকা বেড়েছে মুরগির দাম, ভুল চিকিৎসায় কারখানা শ্রমিকের দেহে ধরেছে পচন, কারচুপি করে ‘জিতিয়ে দেওয়া হয়েছে’ স্বীকার করে কমিশনারের পদত্যাগ, ক্ষমতায় গেলে সবাইকে ক্ষমা করে দেবেন ইমরান খান, জেলেনস্কির সঙ্গে প্রধানমন্ত্রীর বৈঠক\\\"&gt;১৭&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/18/\\\" title=\\\"পাকিস্তানে সরকার গঠন করতে চায় না কোনো দল!, আবার রোহিঙ্গা অনুপ্রবেশ শুরু, গুলিবিদ্ধ নারীসহ এল ৫ জন, বাগেরহাটে তৈরি ৪০ হাজার ‘কাঠের সাইকেল’ যাচ্ছে ইউরোপে, রমজানে কুয়েতে ৪ ঘণ্টার অফিস, নিজের পরিবারের ১২ জনকে গুলি করে হত্যা, ধুনটে দুর্বৃত্তদের আগুনে দোকান পুড়ে নি:স্ব ব্যবসায়ী, দুই শিশুর মৃত্যু নিপাহ ভাইরাসে নয়, অন্য কারণও জানা যায়নি, মির্জাপুরে ত্রিমুখী সংঘর্ষে নিহত ৪, এবার রওশনের সঙ্গে যোগ দিলেন বাবলা, ‘পাকিস্তানে সরকার গঠন করবে পিটিআই’, আজও শাহপরীর দ্বীপ সীমান্তে গুলির শব্দ\\\"&gt;১৮&lt;/a&gt;&lt;/td&gt;\\n\\t&lt;/tr&gt;\\n\\t&lt;tr&gt;\\n\\t\\t&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/19/\\\" title=\\\"রিমির উপন্যাস ‘চিত্রনাট্যে ভুল ছিল’ অবলম্বনে তৈরী হচ্ছে চলচ্চিত্র!, শেরপুরে লেখক সংঘের ৩য় পাক্ষিক সাহিত্য আসর অনুষ্ঠিত, গাজীপুরে ট্রাকচাপায় নিহত ৩, বাগেরহাটে দুই পক্ষের সংঘর্ষে একজন নিহত, পুলিশসহ আহত ২৫, ধর্ম-ভিত্তিক দলের সাথে জোটের সিদ্ধান্ত ইমরানের পিটিআইয়ের, ১১১ দিন পর কারামুক্ত মির্জা আব্বাস, বাংলাদেশে পেঁয়াজ রপ্তানির অনুমতি দিলো ভারত, পুরো রাখাইনের নিয়ন্ত্রণ নেওয়ার দ্বারপ্রান্তে বিদ্রোহীরা, টঙ্গীতে শতকোটি টাকা মূল্যের পুকুর ভরাট কাজ বন্ধ, এবার ভিডিও নিয়ে হাজির হওয়ার ঘোষণা মাহির স্বামী রাকিবের!\\\"&gt;১৯&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=\\\"https://grambanglanews24.com/date/2024/02/20/\\\" title=\\\"ঢাকাসহ বিভিন্ন স্থানে বৃষ্টির আভাস, সংঘাতের মধ্যেই মিয়ানমারে নির্বাচনের তোড়জোড় জান্তার, গাবতলীতে বিরল প্রজাতির বন্যপ্রাণী তক্ষকসহ আটক-১, ২৪ ঘণ্টার মধ্যে বেতন না দিলে ট্রেন বন্ধের ঘোষণা, রাখাইনের মুসলিমদের হাতে অস্ত্র তুলে দিতে চায় জান্তা, ফিলিস্তিনি নারীদের ধর্ষণ করছে ইসরাইলি সৈন্যরা : জাতিসঙ্ঘ বিশেষজ্ঞ, বানিজ্য মেলায় হ্যাট্রিক পুরস্কার পেলো শারীরিক প্রতিবন্ধী সুরক্ষা ট্রাষ্ট, আমার আয়সী  এখন বাবা পাবে কই!, শ্রীপুরে ৮টি ভাংঙ্গা রাস্তা সংস্কার হচ্ছে, প্রতিমন্ত্রীর ছোঁয়ায়, সাবেক ভূমিমন্ত্রী সাইফুজ্জামান চৌধুরীর সম্পদের পাহাড় যুক্তরাজ্যে, বিএনপি নেতাকে জেটেবের ফৃুলের শুভেচ্ছা\\\"&gt;২০&lt;/a&gt;&lt;/td&gt;&lt;td id=\\\"today\\\"&gt;২১&lt;/td&gt;&lt;td&gt;২২&lt;/td&gt;&lt;td&gt;২৩&lt;/td&gt;&lt;td&gt;২৪&lt;/td&gt;&lt;td&gt;২৫&lt;/td&gt;\\n\\t&lt;/tr&gt;\\n\\t&lt;tr&gt;\\n\\t\\t&lt;td&gt;২৬&lt;/td&gt;&lt;td&gt;২৭&lt;/td&gt;&lt;td&gt;২৮&lt;/td&gt;&lt;td&gt;২৯&lt;/td&gt;\\n\\t\\t&lt;td class=\\\"pad\\\" colspan=\\\"3\\\"&gt; &lt;/td&gt;\\n\\t&lt;/tr&gt;\\n\\t&lt;/tbody&gt;\\n\\t&lt;/table&gt;'>&lt;table&gt;&lt;caption&gt;ফেব্রুয়ারি ২০২৪&lt;/caption&gt;&lt;thead&gt;&lt;tr&gt;&lt;th&gt;সোম&lt;/th&gt;&lt;th&gt;মঙ্গল&lt;/th&gt;&lt;th&gt;বুধ&lt;/th&gt;&lt;th&gt;বৃহ&lt;/th&gt;&lt;th&gt;শুক্র&lt;/th&gt;&lt;th&gt;শনি&lt;/th&gt;&lt;th&gt;রবি&lt;/th&gt;&lt;/tr&gt;&lt;/thead&gt;&lt;tfoot&gt;&lt;tr&gt;&lt;td colspan=\\\"3\\\"&gt;« জানুয়ারি&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td colspan=\\\"3\\\"&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/tfoot&gt;&lt;tbody&gt;&lt;tr&gt;&lt;td colspan=\\\"3\\\"&gt;&lt;/td&gt;&lt;td&gt;১&lt;/td&gt;&lt;td&gt;২&lt;/td&gt;&lt;td&gt;৩&lt;/td&gt;&lt;td&gt;৪&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;৫&lt;/td&gt;&lt;td&gt;৬&lt;/td&gt;&lt;td&gt;৭&lt;/td&gt;&lt;td&gt;৮&lt;/td&gt;&lt;td&gt;৯&lt;/td&gt;&lt;td&gt;১০&lt;/td&gt;&lt;td&gt;১১&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;১২&lt;/td&gt;&lt;td&gt;১৩&lt;/td&gt;&lt;td&gt;১৪&lt;/td&gt;&lt;td&gt;১৫&lt;/td&gt;&lt;td&gt;১৬&lt;/td&gt;&lt;td&gt;১৭&lt;/td&gt;&lt;td&gt;১৮&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;১৯&lt;/td&gt;&lt;td&gt;২০&lt;/td&gt;&lt;td&gt;২১&lt;/td&gt;&lt;td&gt;২২&lt;/td&gt;&lt;td&gt;২৩&lt;/td&gt;&lt;td&gt;২৪&lt;/td&gt;&lt;td&gt;২৫&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;২৬&lt;/td&gt;&lt;td&gt;২৭&lt;/td&gt;&lt;td&gt;২৮&lt;/td&gt;&lt;td&gt;২৯&lt;/td&gt;&lt;td colspan=\\\"3\\\"&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/tbody&gt;&lt;/table&gt;</cctable>",
     "content": {
         "html": "<table><caption>ফেব্রুয়ারি ২০২৪</caption><thead><tr><th>সোম</th><th>মঙ্গল</th><th>বুধ</th><th>বৃহ</th><th>শুক্র</th><th>শনি</th><th>রবি</th></tr></thead><tfoot><tr><td colspan=\\\"3\\\">« জানুয়ারি</td><td></td><td colspan=\\\"3\\\"></td></tr></tfoot><tbody><tr><td colspan=\\\"3\\\"></td><td>১</td><td>২</td><td>৩</td><td>৪</td></tr><tr><td>৫</td><td>৬</td><td>৭</td><td>৮</td><td>৯</td><td>১০</td><td>১১</td></tr><tr><td>১২</td><td>১৩</td><td>১৪</td><td>১৫</td><td>১৬</td><td>১৭</td><td>১৮</td></tr><tr><td>১৯</td><td>২০</td><td>২১</td><td>২২</td><td>২৩</td><td>২৪</td><td>২৫</td></tr><tr><td>২৬</td><td>২৭</td><td>২৮</td><td>২৯</td><td colspan=\\\"3\\\"></td></tr></tbody></table>",
-        "is_complex": true
+        "is_complex": true,
+        "table_nest_level": null
     }
 }
diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_table.py b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
index 19e1b106..08f3492c 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_table.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
@@ -19,7 +19,8 @@
             'assets/recognizer/table_simple_cc.html',
             'assets/recognizer/table_include_rowspan_colspan.html',
             'assets/recognizer/table_involve_equation.html',
-            'assets/recognizer/table_include_after_code.html'
+            'assets/recognizer/table_include_after_code.html',
+            'assets/recognizer/table_involve_code.html'
 
         ),
         'expected': [
@@ -86,7 +87,7 @@ def test_cc_simple_table(self):
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             assert len(parts) == 3
             content = html_to_element(parts[1][0]).text_content()
-            assert content == r'<table>\n<tbody>\n<tr>\n<td>Рейтинг:</td>\n<td>Рейтинг&lt;br&gt;5.00&lt;br&gt;из 5 на основе опроса&lt;br&gt;3&lt;br&gt;пользователей</td>\n</tr>\n<tr>\n<td>Тип товара:</td>\n<td>Препараты для омоложения</td>\n</tr>\n<tr>\n<td>Форма:</td>\n<td>Крем</td>\n</tr><tr>\n<td>Объем:</td>\n<td>50 мл</td>\n</tr><tr>\n<td>Рецепт:</td>\n<td>Отпускается без рецепта</td>\n</tr>\n<tr>\n<td>Способ хранения:</td>\n<td>Хранить при температуре 4-20°</td>\n</tr>\n<tr>\n<td>Примечание:</td>\n<td>Беречь от детей</td>\n</tr>\n<tr>\n<td>Оплата:</td>\n<td>Наличными/банковской картой</td>\n</tr>\n<tr>\n<td>Доступность в Северске:</td>\n<td>В наличии</td>\n</tr>\n<tr>\n<td>Доставка:</td>\n<td>2-7 Дней</td>\n</tr>\n<tr>\n<td>Цена:</td>\n<td>84&lt;br&gt;₽</td>\n</tr>\n</tbody>\n</table>\n'
+            assert content == r'<table>\n<tbody>\n<tr>\n<td>Рейтинг:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Рейтинг&lt;br&gt;5.00&lt;br&gt;из 5 на основе опроса&lt;br&gt;3&lt;br&gt;пользователей&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Тип товара:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Препараты для омоложения&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Форма:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Крем&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr><tr>\n<td>Объем:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>50 мл&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr><tr>\n<td>Рецепт:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Отпускается без рецепта&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Способ хранения:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Хранить при температуре 4-20°&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Примечание:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Беречь от детей&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Оплата:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Наличными/банковской картой&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Доступность в Северске:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>В наличии&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Доставка:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>2-7 Дней&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Цена:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>84&lt;br&gt;₽&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n</tbody>\n</table>\n'
 
     def test_cc_complex_table(self):
         """cc跨行跨列的表格."""
@@ -111,11 +112,11 @@ def test_simple_complex_table(self):
             simple_table_tag = html_to_element(parts[1][0]).xpath(f'.//{CCTag.CC_TABLE}')[0]
             simple_table_type = simple_table_tag.attrib
             assert simple_table_type['table_type'] == 'simple'
-            assert simple_table_type == {'table_type': 'simple', 'html': '<table>\n    <tr>\n        <td>1</td>\n        <td>2</td>\n    </tr>\n    <tr>\n        <td>3</td>\n        <td>4</td>\n    </tr>\n</table>\n\n'}
+            assert simple_table_type == {'table_type': 'simple', 'table_nest_level': '1', 'html': '<table>\n    <tr>\n        <td>1</td>\n        <td>2</td>\n    </tr>\n    <tr>\n        <td>3</td>\n        <td>4</td>\n    </tr>\n</table>\n\n'}
             complex_table_tag = html_to_element(parts[2][0]).xpath(f'.//{CCTag.CC_TABLE}')[0]
             complex_table_type = complex_table_tag.attrib
             assert complex_table_type['table_type'] == 'complex'
-            assert complex_table_type == {'table_type': 'complex', 'html': '<table>\n        <tr>\n            <td rowspan="2">1</td>\n            <td>2</td>\n            <td>3</td>\n        </tr>\n        <tr>\n            <td colspan="2">4</td>\n        </tr>\n        <tr>\n            <td>5</td>\n            <td>6</td>\n            <td>7</td>\n        </tr>\n    </table>\n    '}
+            assert complex_table_type == {'table_type': 'complex', 'table_nest_level': '1', 'html': '<table>\n        <tr>\n            <td rowspan="2">1</td>\n            <td>2</td>\n            <td>3</td>\n        </tr>\n        <tr>\n            <td colspan="2">4</td>\n        </tr>\n        <tr>\n            <td>5</td>\n            <td>6</td>\n            <td>7</td>\n        </tr>\n    </table>\n    '}
 
     def test_table_to_content_list_node_simple(self):
         """测试table的 to content list node方法."""
@@ -151,7 +152,8 @@ def test_table_involve_equation(self):
             base_url = 'https://en.m.wikipedia.org/wiki/Variance'
             raw_html = raw_html_path.read_text(encoding='utf-8')
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
-            assert parts is not None
+            complex_table_tag = html_to_element(parts[1][0]).xpath(f'.//{CCTag.CC_TABLE}')
+            assert complex_table_tag[0].text == r'<table><tbody><tr><th>Name of the probability distribution</th><th>Probability distribution function</th><th>Mean</th><th>Variance</th></tr><tr><td>Binomial distribution</td><td>{\displaystyle \Pr \,(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}}</td><td>{\displaystyle np}</td><th>{\displaystyle np(1-p)}</th></tr><tr><td>Geometric distribution</td><td>{\displaystyle \Pr \,(X=k)=(1-p)^{k-1}p}</td><td>{\displaystyle {\frac {1}{p}}}</td><th>{\displaystyle {\frac {(1-p)}{p^{2}}}}</th></tr><tr><td>Normal distribution</td><td>{\displaystyle f\left(x\mid \mu ,\sigma ^{2}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}</td><td>{\displaystyle \mu }</td><th>{\displaystyle \sigma ^{2}}</th></tr><tr><td>Uniform distribution (continuous)</td><td>{\displaystyle f(x\mid a,b)={\begin{cases}{\frac {1}{b-a}}&amp;{\text{for }}a\leq x\leq b,\\[3pt]0&amp;{\text{for }}x&lt;a{\text{ or }}x&gt;b\end{cases}}}</td><td>{\displaystyle {\frac {a+b}{2}}}</td><th>{\displaystyle {\frac {(b-a)^{2}}{12}}}</th></tr><tr><td>Exponential distribution</td><td>{\displaystyle f(x\mid \lambda )=\lambda e^{-\lambda x}}</td><td>{\displaystyle {\frac {1}{\lambda }}}</td><th>{\displaystyle {\frac {1}{\lambda ^{2}}}}</th></tr><tr><td>Poisson distribution</td><td>{\displaystyle f(k\mid \lambda )={\frac {e^{-\lambda }\lambda ^{k}}{k!}}}</td><td>{\displaystyle \lambda }</td><th>{\displaystyle \lambda }</th></tr></tbody></table>'
 
     def test_table_involve_after_code(self):
         """test table involve code, code被提取出去了，过滤掉空的和坏的table."""
@@ -161,3 +163,14 @@ def test_table_involve_after_code(self):
             raw_html = raw_html_path.read_text(encoding='utf-8')
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             assert html_to_element(parts[0][0]).xpath(f'.//{CCTag.CC_TABLE}')[0].text is None
+
+    def test_table_involve_code(self):
+        """table involve code."""
+        for test_case in TEST_CASES:
+            raw_html_path = base_dir.joinpath(test_case['input'][11])
+            base_url = 'https://en.m.wikipedia.org/wiki/Variance'
+            raw_html = raw_html_path.read_text(encoding='utf-8')
+            parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
+            complex_table_tag = html_to_element(parts[1][0]).xpath(f'.//{CCTag.CC_TABLE}')
+            content = open('assets/recognizer/table_include_code_expect.json', 'r', encoding='utf-8').read()
+            assert complex_table_tag[0].text == content

From e7c379248180ca57384269ed030a32eef7ddd6b6 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 13:09:03 +0800
Subject: [PATCH 02/22] update extract table

---
 llm_web_kit/extractor/html/recognizer/table.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
index b41f8834..3598aaba 100644
--- a/llm_web_kit/extractor/html/recognizer/table.py
+++ b/llm_web_kit/extractor/html/recognizer/table.py
@@ -128,10 +128,11 @@ def __is_table_nested(self, tree) -> int:
         # 计算祖先中的 table 数量（不包括自身），再加1表示自身层级
         return len(tree.xpath('ancestor::table')) + 1
 
-    def __extract_tables(self, ele: HtmlElement) -> list[tuple[str, str]]:
+    def __extract_tables(self, ele: str) -> list[tuple[str, str]]:
         """提取html中的table元素."""
-        self.__do_extract_tables(ele)
-        new_html = self._element_to_html(ele)
+        tree = self._build_html_tree(ele)
+        self.__do_extract_tables(tree)
+        new_html = self._element_to_html(tree)
         lst = self.html_split_by_tags(new_html, CCTag.CC_TABLE)
         return lst
 

From f0347ff6421dc53cf8906c6598b1d6f4b49e8308 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 13:24:15 +0800
Subject: [PATCH 03/22] remove table tail

---
 tests/llm_web_kit/extractor/html/recognizer/test_table.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_table.py b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
index 08f3492c..48c17998 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_table.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
@@ -87,8 +87,7 @@ def test_cc_simple_table(self):
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             assert len(parts) == 3
             content = html_to_element(parts[1][0]).text_content()
-            assert content == r'<table>\n<tbody>\n<tr>\n<td>Рейтинг:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Рейтинг&lt;br&gt;5.00&lt;br&gt;из 5 на основе опроса&lt;br&gt;3&lt;br&gt;пользователей&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Тип товара:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Препараты для омоложения&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Форма:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Крем&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr><tr>\n<td>Объем:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>50 мл&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr><tr>\n<td>Рецепт:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Отпускается без рецепта&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Способ хранения:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Хранить при температуре 4-20°&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Примечание:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Беречь от детей&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Оплата:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>Наличными/банковской картой&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Доступность в Северске:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>В наличии&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Доставка:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>2-7 Дней&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n<tr>\n<td>Цена:&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n<td>84&lt;br&gt;₽&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n&lt;br&gt;\n</td>\n</tr>\n</tbody>\n</table>\n'
-
+            assert content == r"<table>\n<tbody>\n<tr>\n<td>Рейтинг:</td><td>Рейтинг&lt;br&gt;5.00&lt;br&gt;3</td></tr><tr>\n<td>Тип товара:</td><td>Препараты для омоложения</td></tr><tr>\n<td>Форма:</td><td>Крем</td></tr><tr>\n<td>Объем:</td><td>50 мл</td></tr><tr>\n<td>Рецепт:</td><td>Отпускается без рецепта</td></tr><tr>\n<td>Способ хранения:</td><td>Хранить при температуре 4-20°</td></tr><tr>\n<td>Примечание:</td><td>Беречь от детей</td></tr><tr>\n<td>Оплата:</td><td>Наличными/банковской картой</td></tr><tr>\n<td>Доступность в Северске:</td><td>В наличии</td></tr><tr>\n<td>Доставка:</td><td>2-7 Дней</td></tr><tr>\n<td>Цена:</td><td>84&lt;br&gt;₽</td></tr></tbody></table>"
     def test_cc_complex_table(self):
         """cc跨行跨列的表格."""
         for test_case in TEST_CASES:

From 5e176944beb0aa2b34b49a3a274380856c831bdd Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 13:34:44 +0800
Subject: [PATCH 04/22] normalize line endings

---
 llm_web_kit/extractor/html/recognizer/table.py            | 2 +-
 tests/llm_web_kit/extractor/html/recognizer/test_table.py | 3 ++-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
index 3598aaba..9d5dbb37 100644
--- a/llm_web_kit/extractor/html/recognizer/table.py
+++ b/llm_web_kit/extractor/html/recognizer/table.py
@@ -232,7 +232,7 @@ def __get_table_body(self, table_type, table_root):
             if elem.text:
                 elem.text = elem.text.strip()
             if elem.tail:
-                elem.tail = elem.tail.strip()
+                elem.tail = None
 
         self.__simplify_td_th_content(table_root)
         # 迭代
diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_table.py b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
index 48c17998..9f26c523 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_table.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
@@ -87,7 +87,8 @@ def test_cc_simple_table(self):
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             assert len(parts) == 3
             content = html_to_element(parts[1][0]).text_content()
-            assert content == r"<table>\n<tbody>\n<tr>\n<td>Рейтинг:</td><td>Рейтинг&lt;br&gt;5.00&lt;br&gt;3</td></tr><tr>\n<td>Тип товара:</td><td>Препараты для омоложения</td></tr><tr>\n<td>Форма:</td><td>Крем</td></tr><tr>\n<td>Объем:</td><td>50 мл</td></tr><tr>\n<td>Рецепт:</td><td>Отпускается без рецепта</td></tr><tr>\n<td>Способ хранения:</td><td>Хранить при температуре 4-20°</td></tr><tr>\n<td>Примечание:</td><td>Беречь от детей</td></tr><tr>\n<td>Оплата:</td><td>Наличными/банковской картой</td></tr><tr>\n<td>Доступность в Северске:</td><td>В наличии</td></tr><tr>\n<td>Доставка:</td><td>2-7 Дней</td></tr><tr>\n<td>Цена:</td><td>84&lt;br&gt;₽</td></tr></tbody></table>"
+            assert content == r'<table>\n<tbody>\n<tr>\n<td>Рейтинг:</td><td>Рейтинг&lt;br&gt;5.00&lt;br&gt;3</td></tr><tr>\n<td>Тип товара:</td><td>Препараты для омоложения</td></tr><tr>\n<td>Форма:</td><td>Крем</td></tr><tr>\n<td>Объем:</td><td>50 мл</td></tr><tr>\n<td>Рецепт:</td><td>Отпускается без рецепта</td></tr><tr>\n<td>Способ хранения:</td><td>Хранить при температуре 4-20°</td></tr><tr>\n<td>Примечание:</td><td>Беречь от детей</td></tr><tr>\n<td>Оплата:</td><td>Наличными/банковской картой</td></tr><tr>\n<td>Доступность в Северске:</td><td>В наличии</td></tr><tr>\n<td>Доставка:</td><td>2-7 Дней</td></tr><tr>\n<td>Цена:</td><td>84&lt;br&gt;₽</td></tr></tbody></table>'
+
     def test_cc_complex_table(self):
         """cc跨行跨列的表格."""
         for test_case in TEST_CASES:

From c15dea1fcdda4d59bfcb5b3a8b49a37c62cc7989 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 14:02:39 +0800
Subject: [PATCH 05/22] update test case

---
 tests/llm_web_kit/extractor/html/recognizer/test_table.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_table.py b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
index 9f26c523..b8b67029 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_table.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
@@ -26,7 +26,8 @@
         'expected': [
             ('assets/recognizer/table_to_content_list_simple_res.json'),
             ('assets/recognizer/table_to_content_list_complex_res.json'),
-            ('assets/recognizer/table_include_image_expcet.json')
+            ('assets/recognizer/table_include_image_expcet.json'),
+            ('assets/recognizer/table_include_code_expect.json')
         ],
     }
 ]
@@ -172,5 +173,6 @@ def test_table_involve_code(self):
             raw_html = raw_html_path.read_text(encoding='utf-8')
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             complex_table_tag = html_to_element(parts[1][0]).xpath(f'.//{CCTag.CC_TABLE}')
-            content = open('assets/recognizer/table_include_code_expect.json', 'r', encoding='utf-8').read()
+            expect_path = base_dir.joinpath(test_case['expected'][3])
+            content = open(expect_path, 'r', encoding='utf-8').read()
             assert complex_table_tag[0].text == content

From d34a8a7416f3b238b49ea81ff5eff6ee37a396b7 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 14:45:30 +0800
Subject: [PATCH 06/22] update format

---
 llm_web_kit/extractor/html/extractor.py        | 2 +-
 llm_web_kit/extractor/html/recognizer/table.py | 5 ++---
 2 files changed, 3 insertions(+), 4 deletions(-)

diff --git a/llm_web_kit/extractor/html/extractor.py b/llm_web_kit/extractor/html/extractor.py
index 1d3facb3..bc3fe05b 100644
--- a/llm_web_kit/extractor/html/extractor.py
+++ b/llm_web_kit/extractor/html/extractor.py
@@ -93,7 +93,7 @@ def _do_extract(self, data_json: DataJson) -> DataJson:
 
         main_html, method = self._extract_main_html(raw_html, base_url, page_layout_type)
         parsed_html = [(main_html,raw_html)]
-        for extract_func in [self._extract_code, self._extract_table, self._extract_math, self._extract_list,
+        for extract_func in [self._extract_table, self._extract_code, self._extract_math, self._extract_list,
                              self._extract_image,
                              self._extract_title, self._extract_paragraph]:
             parsed_html = extract_func(base_url, parsed_html, raw_html)
diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
index 9d5dbb37..64528ea2 100644
--- a/llm_web_kit/extractor/html/recognizer/table.py
+++ b/llm_web_kit/extractor/html/recognizer/table.py
@@ -128,7 +128,7 @@ def __is_table_nested(self, tree) -> int:
         # 计算祖先中的 table 数量（不包括自身），再加1表示自身层级
         return len(tree.xpath('ancestor::table')) + 1
 
-    def __extract_tables(self, ele: str) -> list[tuple[str, str]]:
+    def __extract_tables(self, ele: str) -> list[Tuple[str, str]]:
         """提取html中的table元素."""
         tree = self._build_html_tree(ele)
         self.__do_extract_tables(tree)
@@ -233,7 +233,6 @@ def __get_table_body(self, table_type, table_root):
                 elem.text = elem.text.strip()
             if elem.tail:
                 elem.tail = None
-
         self.__simplify_td_th_content(table_root)
         # 迭代
         for child in table_root.iterchildren():
@@ -258,7 +257,7 @@ def __do_extract_tables(self, root: HtmlElement) -> None:
         for child in root.iterchildren():
             self.__do_extract_tables(child)
 
-    def __get_attribute(self, html: str) -> tuple[bool, Any, Any]:
+    def __get_attribute(self, html: str) -> Tuple[bool, Any, Any]:
         """获取element的属性."""
         ele = self._build_html_tree(html)
         if ele is not None and ele.tag == CCTag.CC_TABLE:

From 87a24954be0bfe65f42dfd6d6df559661a02c928 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 14:48:59 +0800
Subject: [PATCH 07/22] update format

---
 llm_web_kit/extractor/html/recognizer/table.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
index 64528ea2..232573ea 100644
--- a/llm_web_kit/extractor/html/recognizer/table.py
+++ b/llm_web_kit/extractor/html/recognizer/table.py
@@ -128,7 +128,7 @@ def __is_table_nested(self, tree) -> int:
         # 计算祖先中的 table 数量（不包括自身），再加1表示自身层级
         return len(tree.xpath('ancestor::table')) + 1
 
-    def __extract_tables(self, ele: str) -> list[Tuple[str, str]]:
+    def __extract_tables(self, ele: str) -> List[Tuple[str, str]]:
         """提取html中的table元素."""
         tree = self._build_html_tree(ele)
         self.__do_extract_tables(tree)

From 98610905a5a36e778fd85631e0fa8ffb8f9d68e9 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 14:59:22 +0800
Subject: [PATCH 08/22] update format

---
 llm_web_kit/extractor/html/extractor.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/llm_web_kit/extractor/html/extractor.py b/llm_web_kit/extractor/html/extractor.py
index bc3fe05b..1d3facb3 100644
--- a/llm_web_kit/extractor/html/extractor.py
+++ b/llm_web_kit/extractor/html/extractor.py
@@ -93,7 +93,7 @@ def _do_extract(self, data_json: DataJson) -> DataJson:
 
         main_html, method = self._extract_main_html(raw_html, base_url, page_layout_type)
         parsed_html = [(main_html,raw_html)]
-        for extract_func in [self._extract_table, self._extract_code, self._extract_math, self._extract_list,
+        for extract_func in [self._extract_code, self._extract_table, self._extract_math, self._extract_list,
                              self._extract_image,
                              self._extract_title, self._extract_paragraph]:
             parsed_html = extract_func(base_url, parsed_html, raw_html)

From a77735f93a337c181e01cc3af3c03b2f691058b8 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 18:01:25 +0800
Subject: [PATCH 09/22] change parse order

---
 llm_web_kit/extractor/html/extractor.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/llm_web_kit/extractor/html/extractor.py b/llm_web_kit/extractor/html/extractor.py
index 1d3facb3..bc3fe05b 100644
--- a/llm_web_kit/extractor/html/extractor.py
+++ b/llm_web_kit/extractor/html/extractor.py
@@ -93,7 +93,7 @@ def _do_extract(self, data_json: DataJson) -> DataJson:
 
         main_html, method = self._extract_main_html(raw_html, base_url, page_layout_type)
         parsed_html = [(main_html,raw_html)]
-        for extract_func in [self._extract_code, self._extract_table, self._extract_math, self._extract_list,
+        for extract_func in [self._extract_table, self._extract_code, self._extract_math, self._extract_list,
                              self._extract_image,
                              self._extract_title, self._extract_paragraph]:
             parsed_html = extract_func(base_url, parsed_html, raw_html)

From 419b2c1024efc37ce15d864bc0d66615bcff6f53 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 21:32:30 +0800
Subject: [PATCH 10/22] add list nest level

---
 llm_web_kit/extractor/html/recognizer/list.py | 21 ++++++++++++++-----
 1 file changed, 16 insertions(+), 5 deletions(-)

diff --git a/llm_web_kit/extractor/html/recognizer/list.py b/llm_web_kit/extractor/html/recognizer/list.py
index 1dbea3fc..315b8ac8 100644
--- a/llm_web_kit/extractor/html/recognizer/list.py
+++ b/llm_web_kit/extractor/html/recognizer/list.py
@@ -1,5 +1,5 @@
 import json
-from typing import List, Tuple
+from typing import List, Tuple, Any
 
 from lxml.etree import _Element as HtmlElement
 from overrides import override
@@ -88,16 +88,16 @@ def __do_extract_list(self, root:HtmlElement) -> None:
         list_tag_names = ['ul', 'ol', 'dl', 'menu', 'dir']
 
         if root.tag in list_tag_names:
-            is_ordered, content_list, raw_html, tail_text = self.__extract_list_element(root)
+            list_nest_level, is_ordered, content_list, raw_html, tail_text = self.__extract_list_element(root)
             text = json.dumps(content_list, ensure_ascii=False, indent=4)
-            cc_element = self._build_cc_element(CCTag.CC_LIST, text, tail_text, ordered=is_ordered, html=raw_html)
+            cc_element = self._build_cc_element(CCTag.CC_LIST, text, tail_text, ordered=is_ordered, list_nest_level=list_nest_level, html=raw_html)
             self._replace_element(root, cc_element)  # cc_element 替换掉原来的列表元素
             return
 
         for child in root.iterchildren():
             self.__do_extract_list(child)
 
-    def __extract_list_element(self, ele: HtmlElement) -> Tuple[bool, list, str, str]:
+    def __extract_list_element(self, ele: HtmlElement) -> tuple[int, bool, list[list[list]], str, Any]:
         """
         提取列表元素:
         假如有如下列表：
@@ -135,6 +135,7 @@ def __extract_list_element(self, ele: HtmlElement) -> Tuple[bool, list, str, str
             (bool, str, str): 第一个元素是是否有序; 第二个元素是个python list，内部是文本和行内公式，具体格式参考list的content_list定义。第三个元素是列表原始的html内容
         """
         is_ordered = ele.tag in ['ol', 'dl']
+        list_nest_level = self.__get_list_type(ele)
         tail_text = ele.tail
         content_list = []
         raw_html = self._element_to_html(ele)
@@ -144,7 +145,17 @@ def __extract_list_element(self, ele: HtmlElement) -> Tuple[bool, list, str, str
             text_paragraph = self.__extract_list_item_text(item)
             content_list.append(text_paragraph)
 
-        return is_ordered, content_list, raw_html, tail_text
+        return list_nest_level, is_ordered, content_list, raw_html, tail_text
+
+    def __get_list_type(self, list_ele:HtmlElement) -> int:
+        """
+        获取list嵌套的类型
+        """
+        if list_ele.tag not in ['ul', 'ol', 'dl', 'menu', 'dir']:
+            return 0
+        ancestor_count = list_ele.xpath('count(ancestor::ul | ancestor::ol)')
+        # 层级 = 祖先列表数量 + 自身（1层）
+        return int(ancestor_count) + 1
 
     def __extract_list_item_text(self, root:HtmlElement) -> list[list]:
         """提取列表项的文本.

From c40b1ead2135c737a3f3c8943b7a54eea7f09595 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Tue, 25 Feb 2025 21:43:47 +0800
Subject: [PATCH 11/22] fix pylint

---
 llm_web_kit/extractor/html/recognizer/list.py               | 6 ++----
 .../assets/recognizer/table_include_code_expect.json        | 2 +-
 2 files changed, 3 insertions(+), 5 deletions(-)

diff --git a/llm_web_kit/extractor/html/recognizer/list.py b/llm_web_kit/extractor/html/recognizer/list.py
index 315b8ac8..d564d41e 100644
--- a/llm_web_kit/extractor/html/recognizer/list.py
+++ b/llm_web_kit/extractor/html/recognizer/list.py
@@ -1,5 +1,5 @@
 import json
-from typing import List, Tuple, Any
+from typing import Any, List, Tuple
 
 from lxml.etree import _Element as HtmlElement
 from overrides import override
@@ -148,9 +148,7 @@ def __extract_list_element(self, ele: HtmlElement) -> tuple[int, bool, list[list
         return list_nest_level, is_ordered, content_list, raw_html, tail_text
 
     def __get_list_type(self, list_ele:HtmlElement) -> int:
-        """
-        获取list嵌套的类型
-        """
+        """获取list嵌套的类型."""
         if list_ele.tag not in ['ul', 'ol', 'dl', 'menu', 'dir']:
             return 0
         ancestor_count = list_ele.xpath('count(ancestor::ul | ancestor::ol)')
diff --git a/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_include_code_expect.json b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_include_code_expect.json
index 15a9cf34..4f6fc9ed 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_include_code_expect.json
+++ b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_include_code_expect.json
@@ -296,4 +296,4 @@ doGet(request,response);     }
 publicvoidinit()throwsServletException {
 }
 
-}</td></tr></tbody></table>
\ No newline at end of file
+}</td></tr></tbody></table>

From 6c7ca2dddf0c29f772bc1e0dcd0df99ec0b9d545 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Thu, 27 Feb 2025 16:38:35 +0800
Subject: [PATCH 12/22] update table nest spec.md

---
 .../output_format/content_list_spec.md        | 25 +++++++++++--------
 1 file changed, 14 insertions(+), 11 deletions(-)

diff --git a/docs/specification/output_format/content_list_spec.md b/docs/specification/output_format/content_list_spec.md
index 5c27c663..8bbecc32 100644
--- a/docs/specification/output_format/content_list_spec.md
+++ b/docs/specification/output_format/content_list_spec.md
@@ -83,7 +83,8 @@
                 "html": "<table><tr><td>1</td><td>2</td></tr></table>",
                 "title": "example table",
                 "note": "数据来源于...",
-                "is_complex": false // 是否是复杂表格(跨行、跨列的, 默认为false
+                "is_complex": false // 是否是复杂表格(跨行、跨列的/嵌套表格, 默认为false,
+                "table_nest_level": 1 //table的嵌套层级
             }
         },
         {
@@ -285,20 +286,22 @@
         "html": "<table><tr><td>1</td><td>2</td></tr></table>",
         "title": "example table",
         "note": "数据来源于...",
-        "is_complex": false // 是否是复杂表格(跨行、跨列的, 默认为false
+        "is_complex": false // 是否是复杂表格(跨行、跨列的, 默认为false,
+        "table_nest_level": 1 //表格嵌套层级
     }
 }
 ```
 
-| 字段               | 类型    | 描述                                     | 是否必须 |
-| ------------------ | ------- | ---------------------------------------- | -------- |
-| type               | string  | 值固定为table                            | 是       |
-| bbox               | array   | \[x1, y1, x2, y2\]                       | 可选     |
-| raw_content        | string  | 原始文本内容                             | 可选     |
-| content.html       | string  | 表格的html内容                           | 是       |
-| content.title      | string  | 表格的title属性                          | 可选     |
-| content.note       | string  | 表格的note属性                           | 可选     |
-| content.is_complex | boolean | 是否是复杂表格(跨行、跨列的, 默认为false | 可选     |
+| 字段                     | 类型    | 描述                                              | 是否必须 |
+| ------------------------ | ------- | ------------------------------------------------- | -------- |
+| type                     | string  | 值固定为table                                     | 是       |
+| bbox                     | array   | \[x1, y1, x2, y2\]                                | 可选     |
+| raw_content              | string  | 原始文本内容                                      | 可选     |
+| content.html             | string  | 表格的html内容                                    | 是       |
+| content.title            | string  | 表格的title属性                                   | 可选     |
+| content.note             | string  | 表格的note属性                                    | 可选     |
+| content.is_complex       | boolean | 是否是复杂表格(跨行、跨列的/嵌套表格, 默认为false | 可选     |
+| content.table_nest_level | int     | table嵌套层级(单个table为1,两层为2，以此类推)     | 可选     |
 
 ### 列表段
 

From 9e1545293c7d4d6ec10362312a2adb9db6700f6b Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Mon, 3 Mar 2025 12:36:38 +0800
Subject: [PATCH 13/22] update parse order

---
 llm_web_kit/extractor/html/extractor.py       |   2 +-
 .../table_involve_complex_code.html           | 237 ++++++++++++++++++
 .../extractor/html/recognizer/test_code.py    |   2 +-
 .../extractor/html/recognizer/test_table.py   |  17 +-
 4 files changed, 254 insertions(+), 4 deletions(-)
 create mode 100644 tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_involve_complex_code.html

diff --git a/llm_web_kit/extractor/html/extractor.py b/llm_web_kit/extractor/html/extractor.py
index bc3fe05b..1d3facb3 100644
--- a/llm_web_kit/extractor/html/extractor.py
+++ b/llm_web_kit/extractor/html/extractor.py
@@ -93,7 +93,7 @@ def _do_extract(self, data_json: DataJson) -> DataJson:
 
         main_html, method = self._extract_main_html(raw_html, base_url, page_layout_type)
         parsed_html = [(main_html,raw_html)]
-        for extract_func in [self._extract_table, self._extract_code, self._extract_math, self._extract_list,
+        for extract_func in [self._extract_code, self._extract_table, self._extract_math, self._extract_list,
                              self._extract_image,
                              self._extract_title, self._extract_paragraph]:
             parsed_html = extract_func(base_url, parsed_html, raw_html)
diff --git a/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_involve_complex_code.html b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_involve_complex_code.html
new file mode 100644
index 00000000..b929d7e0
--- /dev/null
+++ b/tests/llm_web_kit/extractor/html/recognizer/assets/recognizer/table_involve_complex_code.html
@@ -0,0 +1,237 @@
+<html>
+
+<head>
+    <title>ClientNetworkWrapper.java (Example JavaDoc)</title>
+    <link href="/css/source.css" rel="stylesheet" type="text/css" />
+    <meta http-equiv="content-type" content="text/html; charset=utf-8">
+    <meta name="description" content="Java source code">
+    <meta name="keywords" content="Java, source code">
+    <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
+    <script>
+        (adsbygoogle = window.adsbygoogle || []).push({
+            google_ad_client: "ca-pub-6307150886235032",
+            enable_page_level_ads: true
+        });
+    </script>
+</head>
+
+<body>
+
+    <table class=container>
+        <tr>
+            <td align=left valign=top>
+                <p>
+                <table class=results>
+                    <tr>
+                        <th>File</th>
+                        <th>Doc</th>
+                        <th>Category</th>
+                        <th>Size</th>
+                        <th>Date</th>
+                        <th>Package</th>
+                    </tr>
+                    <tr>
+                        <td><a href=/jcs/2389_ClientNetworkWrapper.java>ClientNetworkWrapper.java</a></td>
+                        <td><a href=/jcs/2389_ClientNetworkWrapper.html>API Doc</a></td>
+                        <td>Example</td>
+                        <td>2389</td>
+                        <td>Thu Nov 08 00:23:44 GMT 2001</td>
+                        <td><a href=/jcs/s/package%3Acom.ora.rmibook.chapter3>com.ora.rmibook.chapter3</td>
+                    </tr>
+                </table>
+                <h1>ClientNetworkWrapper</h1>
+                <ul>
+                    <li><a href=/jcs/s/java.lang.Object>java.lang.Object</a>
+                        <ul>
+                            <li><a href=/jcs/s/NetworkBaseClass>NetworkBaseClass</a>
+                        </ul>
+                </ul><span class=name>public class ClientNetworkWrapper extends NetworkBaseClass implements
+                    PrinterConstants</span>
+                <table class=introduction>
+                    <tr>
+                        <td></td>
+                    </tr>
+                </table>
+                <table class=tags>
+                    <tr>
+                        <td>
+                            <dl></dl>
+                        </td>
+                    </tr>
+                </table>
+                <p>
+                    <script>
+                        document.write('(<a hr' + 'ef=java' + 'script:go("/j' + 'cs/2389_ClientNetworkWrapper.html2")>Omit source code</a>)<p>');
+                    </script>
+                <table class=fields>
+                    <tr>
+                        <th colspan=2>Fields Summary</th>
+                    </tr>
+                    <tr>
+                        <td id=m1>private String</td>
+                        <td>
+                            <dt><span id=field>_serverMachine</span></dt>
+                            <dd></dd>
+                        </td>
+                    </tr>
+                    <tr>
+                        <td id=m1>private int</td>
+                        <td>
+                            <dt><span id=field>_serverPort</span></dt>
+                            <dd></dd>
+                        </td>
+                    </tr>
+                </table>
+                <table class=constructors>
+                    <tr>
+                        <th colspan=1>Constructors Summary</th>
+                    </tr>
+                    <tr>
+                        <td id=c1><span class=cst>public ClientNetworkWrapper</span>()<blockquote>
+                                <p>
+                                <table class=tags>
+                                    <tr>
+                                        <td>
+                                            <dl></dl>
+                                        </td>
+                                    </tr>
+                                </table>
+                                <p><code><pre>
+        this (DEFAULT_SERVER_NAME, DEFAULT_SERVER_PORT);
+    </pre> Test Test Test <pre>ABC
+DEF</pre> TEST TEST TEST </code>
+                            </blockquote>
+                    </tr>
+                    <tr>
+                        <td id=c1><span class=cst>public ClientNetworkWrapper</span>(<a href=/jcs/s/String>String</a>
+                            serverMachine, <a href=/jcs/s/int>int</a> serverPort)</span>
+                            <blockquote>
+                                <p>
+                                <table class=tags>
+                                    <tr>
+                                        <td>
+                                            <dl></dl>
+                                        </td>
+                                    </tr>
+                                </table>
+                                <p><code><pre>
+        _serverMachine = serverMachine;
+        _serverPort = serverPort;
+    </pre></code>
+                            </blockquote>
+                    </tr>
+                </table>
+                <table class=methods>
+                    <tr>
+                        <th colspan=2>Methods Summary</th>
+                    </tr>
+                    <tr>
+                        <td id=m1>private void</td>
+                        <td><span class=method>readStatusFromSocket</span>(<a href=/jcs/s/Socket>java.net.Socket</a>
+                            connection)</dt>
+                            <blockquote>
+                                <p>
+                                <table class=tags>
+                                    <tr>
+                                        <td>
+                                            <dl></dl>
+                                        </td>
+                                    </tr>
+                                </table>
+                                <p><code><pre>
+        InputStream inputStream = connection.getInputStream();
+        DataInputStream dataInputStream = new DataInputStream(inputStream);
+        BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));
+        boolean response = dataInputStream.readBoolean();
+
+        if (response) {
+            return;
+        }
+        PrinterException error = new PrinterException(inputStream);
+
+        throw error;
+    </pre></code>
+                            </blockquote>
+                    </tr>
+                    <tr>
+                        <td id=m1>public void</td>
+                        <td><span class=method>sendDocumentToPrinter</span>(<a
+                                href=/jcs/s/InputStream>java.io.InputStream</a> actualDocument)</dt>
+                            <blockquote>
+                                <p>
+                                <table class=tags>
+                                    <tr>
+                                        <td>
+                                            <dl></dl>
+                                        </td>
+                                    </tr>
+                                </table>
+                                <p><code><pre>
+        sendDocumentToPrinter(actualDocument, DEFAULT_DOCUMENT_TYPE,
+            DEFAULT_PRINT_TWO_SIDED, DEFAULT_PRINT_QUALITY);
+    </pre></code>
+                            </blockquote>
+                    </tr>
+                    <tr>
+                        <td id=m1>public void</td>
+                        <td><span class=method>sendDocumentToPrinter</span>(<a
+                                href=/jcs/s/InputStream>java.io.InputStream</a> actualDocument, <a
+                                href=/jcs/s/int>int</a> documentType, <a href=/jcs/s/boolean>boolean</a> printTwoSided,
+                            <a href=/jcs/s/int>int</a> printQuality)</dt>
+                            <blockquote>
+                                <p>
+                                <table class=tags>
+                                    <tr>
+                                        <td>
+                                            <dl></dl>
+                                        </td>
+                                    </tr>
+                                </table>
+                                <p><code><pre>
+        DocumentDescription documentToSend;
+
+        try {
+            documentToSend = new DocumentDescription(actualDocument, documentType, printTwoSided, printQuality);
+        } catch (IOException e) {
+            throw new ConnectionException();
+        }
+        sendDocumentToPrinter(documentToSend);
+    </pre></code>
+                            </blockquote>
+                    </tr>
+                    <tr>
+                        <td id=m1>public void</td>
+                        <td><span class=method>sendDocumentToPrinter</span>(<a
+                                href=/jcs/s/DocumentDescription>DocumentDescription</a> documentDescription)</dt>
+                            <blockquote>
+                                <p>
+                                <table class=tags>
+                                    <tr>
+                                        <td>
+                                            <dl></dl>
+                                        </td>
+                                    </tr>
+                                </table>
+                                <p><code><pre>
+        Socket connection = null;
+
+        try {
+            connection = new Socket(_serverMachine, _serverPort);
+            documentDescription.writeToStream(connection.getOutputStream());
+            readStatusFromSocket(connection);
+        } catch (IOException e) {
+            e.printStackTrace();
+            throw new ConnectionException();
+        }
+        closeSocket(connection);
+    </pre></code>
+                            </blockquote>
+                    </tr>
+                </table>
+            </td>
+        </tr>
+    </table>
+
+</body>
+
+</html>
\ No newline at end of file
diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_code.py b/tests/llm_web_kit/extractor/html/recognizer/test_code.py
index 40f758c1..143591b1 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_code.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_code.py
@@ -268,7 +268,7 @@ def test_code_rec(self):
             raw_html_path = base_dir.joinpath(test_case['input'][0])
             base_url = test_case['input'][1]
             print(base_url)
-            raw_html = raw_html_path.read_text()
+            raw_html = raw_html_path.read_text(encoding="utf-8")
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             parts = [
                 part[0]
diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_table.py b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
index b8b67029..e92e7297 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_table.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
@@ -20,7 +20,8 @@
             'assets/recognizer/table_include_rowspan_colspan.html',
             'assets/recognizer/table_involve_equation.html',
             'assets/recognizer/table_include_after_code.html',
-            'assets/recognizer/table_involve_code.html'
+            'assets/recognizer/table_involve_code.html',
+            'assets/recognizer/table_involve_complex_code.html'
 
         ),
         'expected': [
@@ -175,4 +176,16 @@ def test_table_involve_code(self):
             complex_table_tag = html_to_element(parts[1][0]).xpath(f'.//{CCTag.CC_TABLE}')
             expect_path = base_dir.joinpath(test_case['expected'][3])
             content = open(expect_path, 'r', encoding='utf-8').read()
-            assert complex_table_tag[0].text == content
+            assert complex_table_tag[0].text == content.strip("\n")
+
+    def test_table_involve_complex_code(self):
+        """table involve complex code"""
+        for test_case in TEST_CASES:
+            raw_html_path = base_dir.joinpath(test_case['input'][12])
+            base_url = 'https://en.m.wikipedia.org/wiki/Variance'
+            raw_html = raw_html_path.read_text(encoding='utf-8')
+            parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
+            complex_table_tag = html_to_element(parts[1][0]).xpath(f'.//{CCTag.CC_TABLE}')
+            expect_path = base_dir.joinpath(test_case['expected'][3])
+            content = open(expect_path, 'r', encoding='utf-8').read()
+            assert complex_table_tag[0].text == content.strip("\n")

From 4a61728b43ce10d3230f8e54900ed39931f865e4 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Mon, 3 Mar 2025 12:49:57 +0800
Subject: [PATCH 14/22] update parse order

---
 tests/llm_web_kit/extractor/html/recognizer/test_code.py  | 2 +-
 tests/llm_web_kit/extractor/html/recognizer/test_table.py | 6 +++---
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_code.py b/tests/llm_web_kit/extractor/html/recognizer/test_code.py
index 143591b1..5b55ed42 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_code.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_code.py
@@ -268,7 +268,7 @@ def test_code_rec(self):
             raw_html_path = base_dir.joinpath(test_case['input'][0])
             base_url = test_case['input'][1]
             print(base_url)
-            raw_html = raw_html_path.read_text(encoding="utf-8")
+            raw_html = raw_html_path.read_text(encoding='utf-8')
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             parts = [
                 part[0]
diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_table.py b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
index e92e7297..87ccbce8 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_table.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
@@ -176,10 +176,10 @@ def test_table_involve_code(self):
             complex_table_tag = html_to_element(parts[1][0]).xpath(f'.//{CCTag.CC_TABLE}')
             expect_path = base_dir.joinpath(test_case['expected'][3])
             content = open(expect_path, 'r', encoding='utf-8').read()
-            assert complex_table_tag[0].text == content.strip("\n")
+            assert complex_table_tag[0].text == content.strip('\n')
 
     def test_table_involve_complex_code(self):
-        """table involve complex code"""
+        """table involve complex code."""
         for test_case in TEST_CASES:
             raw_html_path = base_dir.joinpath(test_case['input'][12])
             base_url = 'https://en.m.wikipedia.org/wiki/Variance'
@@ -188,4 +188,4 @@ def test_table_involve_complex_code(self):
             complex_table_tag = html_to_element(parts[1][0]).xpath(f'.//{CCTag.CC_TABLE}')
             expect_path = base_dir.joinpath(test_case['expected'][3])
             content = open(expect_path, 'r', encoding='utf-8').read()
-            assert complex_table_tag[0].text == content.strip("\n")
+            assert complex_table_tag[0].text == content.strip('\n')

From 1b0e1e92993c9ff587db304e84f9a23cc3756acb Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Mon, 3 Mar 2025 13:37:23 +0800
Subject: [PATCH 15/22] update parse order

---
 tests/llm_web_kit/extractor/html/recognizer/test_code.py  | 2 +-
 tests/llm_web_kit/extractor/html/recognizer/test_table.py | 1 +
 2 files changed, 2 insertions(+), 1 deletion(-)

diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_code.py b/tests/llm_web_kit/extractor/html/recognizer/test_code.py
index 5b55ed42..40f758c1 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_code.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_code.py
@@ -268,7 +268,7 @@ def test_code_rec(self):
             raw_html_path = base_dir.joinpath(test_case['input'][0])
             base_url = test_case['input'][1]
             print(base_url)
-            raw_html = raw_html_path.read_text(encoding='utf-8')
+            raw_html = raw_html_path.read_text()
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             parts = [
                 part[0]
diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_table.py b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
index 87ccbce8..e569d340 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_table.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
@@ -178,6 +178,7 @@ def test_table_involve_code(self):
             content = open(expect_path, 'r', encoding='utf-8').read()
             assert complex_table_tag[0].text == content.strip('\n')
 
+    @unittest.skip(reason='在code模块解决了这个问题')
     def test_table_involve_complex_code(self):
         """table involve complex code."""
         for test_case in TEST_CASES:

From 78ca0283c79ca84f05b5bdb1f1d87b0a4eb5ddfa Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Mon, 3 Mar 2025 14:34:59 +0800
Subject: [PATCH 16/22] =?UTF-8?q?update=20list=E6=A0=87=E5=87=86?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .../output_format/content_list_spec.md        | 21 +++++++++++--------
 1 file changed, 12 insertions(+), 9 deletions(-)

diff --git a/docs/specification/output_format/content_list_spec.md b/docs/specification/output_format/content_list_spec.md
index 8bbecc32..f04e2c85 100644
--- a/docs/specification/output_format/content_list_spec.md
+++ b/docs/specification/output_format/content_list_spec.md
@@ -108,7 +108,8 @@
                       ]
                     ]
                 ],
-                "ordered": true
+                "ordered": true,
+                "list_nest_level": 1 //list的嵌套层级
             }
         }
     ],
@@ -327,18 +328,20 @@
              ]
            ]
         ],
-        "ordered": true
+        "ordered": true,
+        "list_nest_level": 1 //list嵌套层级
     }
 }
 ```
 
-| 字段            | 类型    | 描述                                                | 是否必须 |
-| --------------- | ------- | --------------------------------------------------- | -------- |
-| type            | string  | 值固定为list                                        | 是       |
-| bbox            | array   | \[x1, y1, x2, y2\]                                  | 可选     |
-| raw_content     | string  | 原始文本内容                                        | 可选     |
-| content.items   | array   | 列表项，每个元素是N个段落，段落里的元素是文本或公式 | 是       |
-| content.ordered | boolean | 是否是有序列表                                      | 可选     |
+| 字段                    | 类型    | 描述                                                | 是否必须 |
+| ----------------------- | ------- | --------------------------------------------------- | -------- |
+| type                    | string  | 值固定为list                                        | 是       |
+| bbox                    | array   | \[x1, y1, x2, y2\]                                  | 可选     |
+| raw_content             | string  | 原始文本内容                                        | 可选     |
+| content.items           | array   | 列表项，每个元素是N个段落，段落里的元素是文本或公式 | 是       |
+| content.ordered         | boolean | 是否是有序列表                                      | 可选     |
+| content.list_nest_level | int     | list的嵌套层级(单层list list_nest_level为1)         | 可选     |
 
 <b>items字段说明</b>
 

From efcd7a21d99878c4f99d2bac3acfdeabb9d3d7f8 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Mon, 3 Mar 2025 15:55:38 +0800
Subject: [PATCH 17/22] add table involve inline code

---
 .../html/table_involve_inline_code.html       | 26 +++++++++++++++++++
 .../good_data/html_data_input.jsonl           |  1 +
 .../extractor/test_extractor_chain.py         | 15 +++++++++++
 3 files changed, 42 insertions(+)
 create mode 100644 tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html/table_involve_inline_code.html

diff --git a/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html/table_involve_inline_code.html b/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html/table_involve_inline_code.html
new file mode 100644
index 00000000..0f927ee3
--- /dev/null
+++ b/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html/table_involve_inline_code.html
@@ -0,0 +1,26 @@
+<table>
+    <thead>
+      <tr>
+        <th>Function</th>
+        <th>Description</th>
+        <th>Example</th>
+      </tr>
+    </thead>
+    <tbody>
+      <tr>
+        <td><code>print()</code></td>
+        <td>Prints a message to the console.</td>
+        <td><code>print("Hello, World!")</code></td>
+      </tr>
+      <tr>
+        <td><code>len()</code></td>
+        <td>Returns the length of an object.</td>
+        <td><code>len([1, 2, 3])</code></td>
+      </tr>
+      <tr>
+        <td><code>range()</code></td>
+        <td>Generates a sequence of numbers.</td>
+        <td><code>range(1, 10)</code></td>
+      </tr>
+    </tbody>
+  </table>
diff --git a/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html_data_input.jsonl b/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html_data_input.jsonl
index 1efe87b6..5f08bdbf 100644
--- a/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html_data_input.jsonl
+++ b/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html_data_input.jsonl
@@ -9,3 +9,4 @@
 {"track_id": "rfc-doc", "dataset_name": "test_pipeline_suit", "url": "https://www.test.com","data_source_category": "HTML",  "path":"doc.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
 {"track_id": "legato_doc", "dataset_name": "test_pipeline_suit", "url": "https://www.test.com","data_source_category": "HTML",  "path":"legato_docs.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
 {"track_id": "oracle_doc", "dataset_name": "test_pipeline_suit", "url": "https://docs.oracle.com/en-us/iaas/tools/java/3.57.1/com/oracle/bmc/integration/model/CustomEndpointDetails.html","data_source_category": "HTML",  "path":"oracle_doc.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
+{"track_id": "table_involve_inline_code", "dataset_name": "test_table_involve_inline_code", "url": "https://docs.oracle.com/en-us/iaas/tools/java/3.57.1/com/oracle/bmc/integration/model/CustomEndpointDetails.html","data_source_category": "HTML",  "path":"table_involve_inline_code.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
\ No newline at end of file
diff --git a/tests/llm_web_kit/extractor/test_extractor_chain.py b/tests/llm_web_kit/extractor/test_extractor_chain.py
index 4972673b..a6671f4f 100644
--- a/tests/llm_web_kit/extractor/test_extractor_chain.py
+++ b/tests/llm_web_kit/extractor/test_extractor_chain.py
@@ -344,3 +344,18 @@ def test_oracle_doc_comment(self):
         result = chain.extract(input_data)
         main_html = result.get_content_list().to_main_html()
         assert 'public int hashCode()' in main_html
+
+    def test_table_involve_inline_code(self):
+        """
+        table里面包含行内code
+        Returns:
+
+        """
+        chain = ExtractSimpleFactory.create(self.config)
+        self.assertIsNotNone(chain)
+        test_data = self.data_json[11]
+        # Create DataJson from test data
+        input_data = DataJson(test_data)
+        result = chain.extract(input_data)
+        content_list = result.get_content_list()._get_data()
+        print(content_list)

From 0776f6efa0a118bad026147d923052cb662ae3a0 Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Mon, 3 Mar 2025 16:58:41 +0800
Subject: [PATCH 18/22] add test case

---
 tests/llm_web_kit/extractor/test_extractor_chain.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/llm_web_kit/extractor/test_extractor_chain.py b/tests/llm_web_kit/extractor/test_extractor_chain.py
index a6671f4f..ef596204 100644
--- a/tests/llm_web_kit/extractor/test_extractor_chain.py
+++ b/tests/llm_web_kit/extractor/test_extractor_chain.py
@@ -357,5 +357,5 @@ def test_table_involve_inline_code(self):
         # Create DataJson from test data
         input_data = DataJson(test_data)
         result = chain.extract(input_data)
-        content_list = result.get_content_list()._get_data()
-        print(content_list)
+        content_list = result.get_content_list()._get_data()[0][0]['content']['html']
+        assert content_list == """<table><tr><th>Function</th><th>Description</th><th>Example</th></tr><tr><td>print()</td><td>Prints a message to the console.</td><td>print("Hello, World!")</td></tr><tr><td>len()</td><td>Returns the length of an object.</td><td>len([1, 2, 3])</td></tr><tr><td>range()</td><td>Generates a sequence of numbers.</td><td>range(1, 10)</td></tr></table>"""

From 3fda2a69efa527e95275d39dde6f3e26df4045fc Mon Sep 17 00:00:00 2001
From: quyuan <quyuan@pjlab.org>
Date: Mon, 3 Mar 2025 17:07:10 +0800
Subject: [PATCH 19/22] fix test case

---
 tests/llm_web_kit/extractor/test_extractor_chain.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/llm_web_kit/extractor/test_extractor_chain.py b/tests/llm_web_kit/extractor/test_extractor_chain.py
index ef596204..884c9860 100644
--- a/tests/llm_web_kit/extractor/test_extractor_chain.py
+++ b/tests/llm_web_kit/extractor/test_extractor_chain.py
@@ -59,7 +59,7 @@ def setUp(self):
             for line in f:
                 self.data_json.append(json.loads(line.strip()))
 
-        assert len(self.data_json) == 11
+        assert len(self.data_json) == 12
 
         # Config for HTML extraction
         self.config = {

From e0196bfbb27f473cdd0c45ad2b48342d20e8754b Mon Sep 17 00:00:00 2001
From: dt-yy <qywan918@163.com>
Date: Wed, 5 Mar 2025 16:28:59 +0800
Subject: [PATCH 20/22] add table tail

---
 .../extractor/html/recognizer/table.py        |  35 +-
 .../good_data/html/table_tail_text.html       | 367 ++++++++++++++++++
 .../good_data/html_data_input.jsonl           |   3 +-
 .../extractor/test_extractor_chain.py         |  13 +-
 4 files changed, 405 insertions(+), 13 deletions(-)
 create mode 100644 tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html/table_tail_text.html

diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
index fa24dd6d..6908398e 100644
--- a/llm_web_kit/extractor/html/recognizer/table.py
+++ b/llm_web_kit/extractor/html/recognizer/table.py
@@ -196,11 +196,22 @@ def __check_table_include_math_code(self, raw_html: HtmlElement):
                 ]
                 ele_res.extend(ccinterline_codes)
             else:
-                ele_res.extend([
-                    text.strip()
-                    for text in self._build_html_tree(math_item[1]).itertext()
-                    if text.strip()
-                ])
+                tree = self._build_html_tree(math_item[1])
+                texts = []
+                for element in tree.iter():
+                    if element.text and element.text.strip():
+                        text = element.text.strip()
+                        # 如果有tail，直接拼接到text后面
+                        if element.tail and element.tail.strip():
+                            text += element.tail.strip()
+                        texts.append(text)
+                    elif element.tail and element.tail.strip():
+                        # 如果只有tail且前面有内容，则拼接到最后一个text
+                        if texts:
+                            texts[-1] += element.tail.strip()
+                        else:
+                            texts.append(element.tail.strip())
+                ele_res.extend(texts)
         return ele_res
 
     def __simplify_td_th_content(self, elem: HtmlElement) -> None:
@@ -212,7 +223,8 @@ def __simplify_td_th_content(self, elem: HtmlElement) -> None:
             parse_res.extend(math_res)
             for item in list(elem.iterchildren()):
                 elem.remove(item)
-            elem.text = '<br>'.join(parse_res)
+            if parse_res:
+                elem.text = '<br>'.join(parse_res)
             return
         for child in elem.iter('td', 'th'):
             self.__simplify_td_th_content(child)
@@ -227,18 +239,19 @@ def __get_table_body(self, table_type, table_root):
             cleaned_attrs = {k: v for k, v in table_root.attrib.items() if k in allowed_attributes}
             table_root.attrib.clear()
             table_root.attrib.update(cleaned_attrs)
-        # text进行strip操作,tail去掉(有较多空换行)
+        # text进行strip操作,tail保留（部分内容留在tail中）
         for elem in chain([table_root], table_root.iterdescendants()):
-            if elem.text:
+            if elem.text is not None:
                 elem.text = elem.text.strip()
-            if elem.tail:
-                elem.tail = None
+            if elem.tail is not None:
+                elem.tail = elem.tail.strip()
+                if not elem.tail:
+                    elem.tail = None
         self.__simplify_td_th_content(table_root)
         # 迭代
         for child in table_root.iterchildren():
             if child is not None:
                 self.__get_table_body(table_type, child)
-
         return self._element_to_html(table_root)
 
     def __do_extract_tables(self, root: HtmlElement) -> None:
diff --git a/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html/table_tail_text.html b/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html/table_tail_text.html
new file mode 100644
index 00000000..4044b9a3
--- /dev/null
+++ b/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html/table_tail_text.html
@@ -0,0 +1,367 @@
+<!DOCTYPE html>
+<html lang="en">
+	<head>
+	<!-- Matomo -->
+<script>
+  var _paq = window._paq = window._paq || [];
+  /* tracker methods like "setCustomDimension" should be called before "trackPageView" */
+  _paq.push(['trackPageView']);
+  _paq.push(['enableLinkTracking']);
+  (function() {
+    var u="//dchublists.com/matomo/";
+    _paq.push(['setTrackerUrl', u+'matomo.php']);
+    _paq.push(['setSiteId', '1']);
+    var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0];
+    g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s);
+  })();
+</script>
+<!-- End Matomo Code -->
+
+		<meta charset="utf-8" />
+			<title>🇷🇺 | Show hub - Big-Empty DC++ Dchublist NMDC and ADCs хабов Huburi Хаблист</title>
+	<meta name="description" content="dchublist хаблист huburi дс++ дсс+ список фильмы хабов хабами hubow украина программа русская скачать odc хабах клиент flylinkdc++ hubbar Magyar hublist" />
+    <meta name="Keywords" content="годный хаблист для strong dc,dchublist,хабов,Клиенты DC++,dc скачать русскую версию с хабами, флайлинк dc++ hubbar, dc++ хабы украина, dc Хабы, clients, connect, list, hublist dc++,dc хаблист,hubow,lista,flylinkdc++,airdc,strongdc++,apexdc++,guide,dc hublists,hubs,huburi romanesti,acasa,odc,andresa,Magyar hublista,publichublist,dcplusplus,клиент,клиенты,лёгкий,списками,hubba,dc скачать русскую версию с хабами"/>
+    <meta name="keystrokes" content="show, hub, dchublist, nmdc, adcs, хабов, huburi, acasa, хаблист, dc++ hublist, dc скачать русскую версию с хабами, client dc++, dc++ hubbar, dc++ хабы украина, flylinkdc++, хабов, Клиенты DC++, dc хаблист, hubow, hubba, public dc++ hublist, dc++ hub list, nmdc hublist, adc hubs,  free hublist, public hubs, direct connect hubs">
+    <meta name="distribution" content="global"/>
+    <meta http-equiv="cache-control" content="no-cache"/>
+    <meta http-equiv="X-UA-Compatible" content="IE=edge">
+	<meta name="og:title" property="og:title" content="🇷🇺 | Show hub - Big-Empty" />
+	<link rel="canonical" href="https://dchublists.com/?do=hublist&amp;id=hub-975"/>
+    <meta name="rating" content="global"/>
+    <meta name="google-site-verification" content=""/>
+    <meta name="yandex-verification" content=""/>
+    <meta name="viewport" content="width=device-width, user-scalable=no,initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0">
+    <meta name='robots' content='index,follow'>
+    <meta name="Copyright" content="Dc++ Hublist">
+    <meta name="Author" content="Dc++ Hublist">
+    <meta name="Classification" content="Hub List DC Хаблист">
+		<link rel="stylesheet" type="text/css" href="https://dchublists.com/application.css" />
+		<link rel="stylesheet" href="https://dchublists.com/style.css" type="text/css" />
+		<link rel="shortcut icon" href="/images/favicon.ico" />
+		<link rel="apple-touch-icon" href="/images/favicon.ico" />
+			<link rel="stylesheet" href="https://dchublists.com/colorbox/colorbox.css" type="text/css" />
+			<script>
+				/* <![CDATA[ */
+				function acceptcookies () {
+					var now = new Date ();
+					now.setTime (now.getTime () + 86400000);
+					document.cookie = 'te_cookies=true; expires=' + now.toUTCString () + '; path=/; domain=dchublists.com';
+					document.getElementById ('cookies').style.visibility = 'hidden';
+				}
+				/* ]]> */
+			</script>
+</head>
+<body>
+<div class="container"><header class="navbar navbar-inverse"><div class="navbar-inner"><a class="brand" href="https://dchublists.com/?do=hublist&page=1" title="Hubs">Hubs</a>
+<ul class="nav" >
+<li><a href="https://dchublists.com/help/" title="Dchublists.com">Dchublists.com</a></li>
+<li><a href="https://dchublists.com/?do=forum" title="Forum">Forum</a></li>
+<li><a href="https://dchublists.com/?do=hublist&action=stats&language=en" title="Stats">Stats</a></li>
+<li><a href="https://dchublists.com/flylinkdc/" title="FlylinkDC++">FlylinkDC++</a></li>
+<li><a href="https://dchublists.com/list/" title="Additional hublists - Choose Your Country List for your Client">Lists</a></li>
+<li><a href="https://dchublists.com/client/" title="Client DC++">Client DC++</a></li>
+<li><a href="https://dchublists.com/?do=hublist&amp;action=findhub" title="Search for a hub">Find Hubs</a></li>
+<li><a href="https://dchublists.com/?do=hublist&amp;type=adc" title="Hublist ADCs">ADCs</a></li>
+</ul><ul class="nav pull-right">
+<li><a href="https://dchublists.com/?do=login">Login</a></li>
+</ul></div></header><div id="page"><ul class="breadcrumb">
+</ul>
+        
+						<h1 class="headline">Big-Empty</h1>
+					
+<table class="table table-striped table-condensed" style="width: 100%;">
+<tr style="background-color: #fcfcfc;">
+		<th style="width: 125px;">Client</th>
+		<th>
+			<a href="https://dchublists.com/clients/FlylinkDC_x64.exe" target="_blank">https://dchublists.com/clients/FlylinkDC_x64.exe</a>
+		</th>
+		</tr>
+        <tr>
+            <th style="width: 125px;">Status</th>
+            <th><span class="label hub-online">Online</span> &#124; ID: 975</th>
+        </tr>
+		<tr style="background-color: #fcfcfc;">
+							<th>URL</th>
+							<th >
+								<a href="https://dchublists.com/hub-975" target="_blank">https://dchublists.com/hub-975</a>
+							</th>
+						</tr>
+        <tr>
+            <th>Address</th>
+            <th>
+<span class="label proto-dchub">NMDC</span> &#124; <a href="dchub://big-empty.ru">dchub://big-empty.ru</a>
+            </th>
+        </tr>
+        <tr style="background-color: #fcfcfc;">
+            <th>ASN</th>
+            <th>
+                <a href="https://ipinfo.io/AS44068">Style-Com LLC</a>
+            </th>
+        </tr>
+		<tr style="background-color: #ffffff;">
+		<th>Failover</th>
+		<th>
+			<span class="shaded">Not available</span>
+		</th>
+		</tr>
+        <tr style="background-color: #fcfcfc;">
+            <th style="width: 120px;">Name</th>
+            <th style=" color: #000000;" >Big-Empty</th>
+        <tr style="background-color: #ffffff;">
+            <th>Topic</th>
+            <th>
+                <span class="shaded">Not available</span>
+            </th>
+        </tr>
+        <tr style="background-color: #fcfcfc;">
+            <th>Description</th>
+            <th>
+                Хаб сети Arbital
+            </th>
+        </tr>
+        <tr style="background-color: #ffffff;">
+            <th>Category</th>
+            <th>
+                <span class="shaded">Not available</span>
+            </th>
+        </tr>
+        <tr style="background-color: #fcfcfc;">
+            <th>Software</th>
+            <th>
+                <img src="/images/hubsoft/ptokax.png" title="PtokaX"> <a href="//www.ptokax.org" target="_blank">PtokaX</a> 0.5.3.0
+            </th>
+        <tr style="background-color: #ffffff;">
+            <th>Owner</th>
+            <th>
+                <span class="shaded">Self</span>
+            </th>
+        </tr>
+        <tr style="background-color: #fcfcfc;">
+            <th>Location</th>
+            <th>
+                <img src="https://dchublists.com/images/flags/ru.png" alt="RU" title="Russian Federation" /> Russian Federation
+            </th>
+        </tr>
+        <tr style="background-color: #ffffff;">
+            <th>Users</th>
+            <th>
+                25 &#124; <span title="Peak online users.">55</span>
+            </th>
+        </tr>
+        <tr style="background-color: #fcfcfc;">
+            <th>Clones</th>
+            <th>0</th>
+        </tr>
+        <tr style="background-color: #ffffff;">
+            <th>Share</th>
+            <th>
+                4.39 TB &#124; <span title="Peak total share.">90.60 TB</span>
+            </th>
+        </tr>
+        <tr style="background-color: #fcfcfc;">
+            <th>User limit</th>
+            <th>10000</th>
+        </tr>
+        <tr style="background-color: #ffffff;">
+            <th>Share limit</th>
+            <th>0 B</th>
+        </tr>
+        <tr style="background-color: #fcfcfc;">
+            <th>Slot limit</th>
+            <th>0</th>
+        </tr>
+        <tr style="background-color: #ffffff;">
+            <th>Hub limit</th>
+            <th>0</th>
+        </tr>
+        <tr style="background-color: #fcfcfc;">
+            <th>Reliability</th>
+            <th>99.04%</th>
+        </tr>
+        <tr style="background-color: #ffffff;">
+							<th>Checked</th>
+							<th>
+								2024-12-09 03:06:01 &#124; <span title="Date when hub was added to list.">2021-05-07</span>
+							</th>
+						</tr>
+						<tr style="background-color: #fcfcfc;">
+							<th>Votes</th>
+							<th>
+								<a href="/?do=hublist&amp;id=975&action=vote&vote" title="Submit good vote: +1">+0</a> &#124; <a href="/?do=hublist&amp;id=975&action=vote&vote" title="Submit bad vote: -1">-0</a> &#124; <span title="Final voting result.">0</span>
+							</th>
+						</tr>
+						<tr style="background-color: #ffffff;">
+							<th>Website</th>
+							<th>
+								<span style="color: #000000;">Not available</span>
+							</th>
+						</tr>
+						<tr style="background-color: #fcfcfc;">
+							<th>Email</th>
+							<th>
+						        <span style="color: #000000;">Not available</span>
+							</th>
+						</tr>
+				
+					</table>
+					<br />
+					<h3 class="headline">Online users</h3>
+				
+							<div style="overflow: auto; max-height: 500px;">
+								<table class="small" style="width: 100%;">
+									<tr>
+										<th>Nick</th>
+										<th style="width: 80px; text-align: right;">Share</th>
+									</tr>
+						
+								<tr style=" #f0f0f0;">
+									<th style="color: #ff0000;">Darv1n</th>
+									<th style="text-align: right;">1.55 TB</th>
+								</tr>
+							
+								<tr>
+									<th style="color: #ff0000;">PtokaX</th>
+									<th style="text-align: right;">0 B</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>1975</th>
+									<th style="text-align: right;">628.43 GB</th>
+								</tr>
+							
+								<tr>
+									<th>AndyDesktop</th>
+									<th style="text-align: right;">0 B</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>Crtyujgfdscvgjh</th>
+									<th style="text-align: right;">35.54 GB</th>
+								</tr>
+							
+								<tr>
+									<th>DaymarixZZZ</th>
+									<th style="text-align: right;">37.57 GB</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>Evgeniy_D</th>
+									<th style="text-align: right;">76.15 GB</th>
+								</tr>
+							
+								<tr>
+									<th>Julia</th>
+									<th style="text-align: right;">0 B</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>Kuzma</th>
+									<th style="text-align: right;">0 B</th>
+								</tr>
+							
+								<tr>
+									<th>Larsenv</th>
+									<th style="text-align: right;">0 B</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>MAXMED88888888</th>
+									<th style="text-align: right;">64.10 GB</th>
+								</tr>
+							
+								<tr>
+									<th>Qwerty_ytr_R724</th>
+									<th style="text-align: right;">237.12 GB</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>SERG_B</th>
+									<th style="text-align: right;">149.65 GB</th>
+								</tr>
+							
+								<tr>
+									<th>Sculli</th>
+									<th style="text-align: right;">156.92 GB</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>Shareaza4046</th>
+									<th style="text-align: right;">13.03 GB</th>
+								</tr>
+							
+								<tr>
+									<th>Soliton</th>
+									<th style="text-align: right;">14.68 GB</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>Sweaborg</th>
+									<th style="text-align: right;">794.15 GB</th>
+								</tr>
+							
+								<tr>
+									<th>Viktor138283</th>
+									<th style="text-align: right;">179.23 GB</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>[fly]Fire_dU3JR</th>
+									<th style="text-align: right;">10.72 GB</th>
+								</tr>
+							
+								<tr>
+									<th>[fly]Monkey_QGrFy</th>
+									<th style="text-align: right;">124.72 GB</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>[fly]Moon_x7m</th>
+									<th style="text-align: right;">61.13 GB</th>
+								</tr>
+							
+								<tr>
+									<th>kotbaun</th>
+									<th style="text-align: right;">0 B</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>marcs</th>
+									<th style="text-align: right;">3.62 GB</th>
+								</tr>
+							
+								<tr>
+									<th>minili</th>
+									<th style="text-align: right;">59.30 GB</th>
+								</tr>
+							
+								<tr style=" #f0f0f0;">
+									<th>y2b4k698df328djei3</th>
+									<th style="text-align: right;">261.82 GB</th>
+								</tr>
+							
+								</table>
+							</div>
+							<br />
+						
+					<h3 class="headline">Comments</h3>
+				There are no comments for this hub, you can <a rel=nofollow href="/?do=hublist&amp;id=975&action=comment">write one here</a>.
+     </div><footer><p class="pull-left">&copy; 2016-2024 <a id="site" href="https://dchublists.com/?do=hublist&page=1"><b>Hubs</b></a></p><p class="pull-right"><a href="https://dchublists.com/?do=about&amp;action=cookies">Cookies</a>
+	 
+	 </p>
+	 </footer>
+	 </div>
+	<script src="https://dchublists.com/jquery/jquery.js"></script>
+			<script src="https://dchublists.com/colorbox/colorbox.js"></script>
+			<script>
+				/* <![CDATA[ */
+				jQuery (document).ready (function () {
+					jQuery ('a.imagebox').colorbox ({rel: 'alternate', photo: true});
+					jQuery ('a.gallery').colorbox ({rel: 'alternate', photo: true});
+					jQuery ('a.smileys').colorbox ({innerWidth: '500px', innerHeight: '600px'});
+				});
+				/* ]]> */
+			</script>
+			<script src="https://dchublists.com/application.css"></script>
+<script type="text/javascript">
+</body>
+</html>
\ No newline at end of file
diff --git a/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html_data_input.jsonl b/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html_data_input.jsonl
index 5f08bdbf..12bfb843 100644
--- a/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html_data_input.jsonl
+++ b/tests/llm_web_kit/extractor/assets/extractor_chain_input/good_data/html_data_input.jsonl
@@ -9,4 +9,5 @@
 {"track_id": "rfc-doc", "dataset_name": "test_pipeline_suit", "url": "https://www.test.com","data_source_category": "HTML",  "path":"doc.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
 {"track_id": "legato_doc", "dataset_name": "test_pipeline_suit", "url": "https://www.test.com","data_source_category": "HTML",  "path":"legato_docs.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
 {"track_id": "oracle_doc", "dataset_name": "test_pipeline_suit", "url": "https://docs.oracle.com/en-us/iaas/tools/java/3.57.1/com/oracle/bmc/integration/model/CustomEndpointDetails.html","data_source_category": "HTML",  "path":"oracle_doc.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
-{"track_id": "table_involve_inline_code", "dataset_name": "test_table_involve_inline_code", "url": "https://docs.oracle.com/en-us/iaas/tools/java/3.57.1/com/oracle/bmc/integration/model/CustomEndpointDetails.html","data_source_category": "HTML",  "path":"table_involve_inline_code.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
\ No newline at end of file
+{"track_id": "table_involve_inline_code", "dataset_name": "test_table_involve_inline_code", "url": "https://docs.oracle.com/en-us/iaas/tools/java/3.57.1/com/oracle/bmc/integration/model/CustomEndpointDetails.html","data_source_category": "HTML",  "path":"table_involve_inline_code.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
+{"track_id": "table_tail_text", "dataset_name": "test_table_tail_text", "url": "https://dchublists.com/?do=hublist&id=hub-975&language=en","data_source_category": "HTML",  "path":"table_tail_text.html", "file_bytes": 1000, "meta_info": {"input_datetime": "2020-01-01 00:00:00"}}
\ No newline at end of file
diff --git a/tests/llm_web_kit/extractor/test_extractor_chain.py b/tests/llm_web_kit/extractor/test_extractor_chain.py
index 884c9860..925d5f52 100644
--- a/tests/llm_web_kit/extractor/test_extractor_chain.py
+++ b/tests/llm_web_kit/extractor/test_extractor_chain.py
@@ -59,7 +59,7 @@ def setUp(self):
             for line in f:
                 self.data_json.append(json.loads(line.strip()))
 
-        assert len(self.data_json) == 12
+        assert len(self.data_json) == 13
 
         # Config for HTML extraction
         self.config = {
@@ -359,3 +359,14 @@ def test_table_involve_inline_code(self):
         result = chain.extract(input_data)
         content_list = result.get_content_list()._get_data()[0][0]['content']['html']
         assert content_list == """<table><tr><th>Function</th><th>Description</th><th>Example</th></tr><tr><td>print()</td><td>Prints a message to the console.</td><td>print("Hello, World!")</td></tr><tr><td>len()</td><td>Returns the length of an object.</td><td>len([1, 2, 3])</td></tr><tr><td>range()</td><td>Generates a sequence of numbers.</td><td>range(1, 10)</td></tr></table>"""
+
+    def test_table_tail_text(self):
+        """table的tail文本保留."""
+        chain = ExtractSimpleFactory.create(self.config)
+        self.assertIsNotNone(chain)
+        test_data = self.data_json[12]
+        # Create DataJson from test data
+        input_data = DataJson(test_data)
+        result = chain.extract(input_data)
+        content_md = result.get_content_list().to_mm_md()
+        assert 'Online| ID: 975' in content_md

From f96166564f45c132b93a42a2476441e42f28ae58 Mon Sep 17 00:00:00 2001
From: dt-yy <qywan918@163.com>
Date: Wed, 5 Mar 2025 20:54:59 +0800
Subject: [PATCH 21/22] =?UTF-8?q?=E5=8A=A0=E4=B8=8Atable=E7=9A=84tail?=
 =?UTF-8?q?=E5=A4=84=E7=90=86?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .../extractor/html/recognizer/table.py        | 24 +++++++------------
 .../extractor/html/recognizer/test_table.py   |  2 +-
 .../extractor/test_extractor_chain.py         |  2 +-
 3 files changed, 10 insertions(+), 18 deletions(-)

diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
index 6908398e..f5ec5b77 100644
--- a/llm_web_kit/extractor/html/recognizer/table.py
+++ b/llm_web_kit/extractor/html/recognizer/table.py
@@ -196,21 +196,13 @@ def __check_table_include_math_code(self, raw_html: HtmlElement):
                 ]
                 ele_res.extend(ccinterline_codes)
             else:
-                tree = self._build_html_tree(math_item[1])
                 texts = []
-                for element in tree.iter():
-                    if element.text and element.text.strip():
-                        text = element.text.strip()
-                        # 如果有tail，直接拼接到text后面
-                        if element.tail and element.tail.strip():
-                            text += element.tail.strip()
-                        texts.append(text)
-                    elif element.tail and element.tail.strip():
-                        # 如果只有tail且前面有内容，则拼接到最后一个text
-                        if texts:
-                            texts[-1] += element.tail.strip()
-                        else:
-                            texts.append(element.tail.strip())
+                # 使用 itertext() 遍历所有文本片段
+                for text_segment in ele_item.itertext():
+                    # 统一处理文本：去空白 + 替换字面 \n
+                    cleaned_text = text_segment.strip().replace('\\n', '')
+                    if cleaned_text:  # 过滤空字符串
+                        texts.append(cleaned_text)
                 ele_res.extend(texts)
         return ele_res
 
@@ -242,9 +234,9 @@ def __get_table_body(self, table_type, table_root):
         # text进行strip操作,tail保留（部分内容留在tail中）
         for elem in chain([table_root], table_root.iterdescendants()):
             if elem.text is not None:
-                elem.text = elem.text.strip()
+                elem.text = elem.text.strip().replace('\\n', '')
             if elem.tail is not None:
-                elem.tail = elem.tail.strip()
+                elem.tail = elem.tail.strip().replace('\\n', '')
                 if not elem.tail:
                     elem.tail = None
         self.__simplify_td_th_content(table_root)
diff --git a/tests/llm_web_kit/extractor/html/recognizer/test_table.py b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
index e569d340..18a40327 100644
--- a/tests/llm_web_kit/extractor/html/recognizer/test_table.py
+++ b/tests/llm_web_kit/extractor/html/recognizer/test_table.py
@@ -89,7 +89,7 @@ def test_cc_simple_table(self):
             parts = self.rec.recognize(base_url, [(raw_html, raw_html)], raw_html)
             assert len(parts) == 3
             content = html_to_element(parts[1][0]).text_content()
-            assert content == r'<table>\n<tbody>\n<tr>\n<td>Рейтинг:</td><td>Рейтинг&lt;br&gt;5.00&lt;br&gt;3</td></tr><tr>\n<td>Тип товара:</td><td>Препараты для омоложения</td></tr><tr>\n<td>Форма:</td><td>Крем</td></tr><tr>\n<td>Объем:</td><td>50 мл</td></tr><tr>\n<td>Рецепт:</td><td>Отпускается без рецепта</td></tr><tr>\n<td>Способ хранения:</td><td>Хранить при температуре 4-20°</td></tr><tr>\n<td>Примечание:</td><td>Беречь от детей</td></tr><tr>\n<td>Оплата:</td><td>Наличными/банковской картой</td></tr><tr>\n<td>Доступность в Северске:</td><td>В наличии</td></tr><tr>\n<td>Доставка:</td><td>2-7 Дней</td></tr><tr>\n<td>Цена:</td><td>84&lt;br&gt;₽</td></tr></tbody></table>'
+            assert content == r'<table><tbody><tr><td>Рейтинг:</td><td>Рейтинг&lt;br&gt;5.00&lt;br&gt;из 5 на основе опроса&lt;br&gt;3&lt;br&gt;пользователей</td></tr><tr><td>Тип товара:</td><td>Препараты для омоложения</td></tr><tr><td>Форма:</td><td>Крем</td></tr><tr><td>Объем:</td><td>50 мл</td></tr><tr><td>Рецепт:</td><td>Отпускается без рецепта</td></tr><tr><td>Способ хранения:</td><td>Хранить при температуре 4-20°</td></tr><tr><td>Примечание:</td><td>Беречь от детей</td></tr><tr><td>Оплата:</td><td>Наличными/банковской картой</td></tr><tr><td>Доступность в Северске:</td><td>В наличии</td></tr><tr><td>Доставка:</td><td>2-7 Дней</td></tr><tr><td>Цена:</td><td>84&lt;br&gt;₽</td></tr></tbody></table>'
 
     def test_cc_complex_table(self):
         """cc跨行跨列的表格."""
diff --git a/tests/llm_web_kit/extractor/test_extractor_chain.py b/tests/llm_web_kit/extractor/test_extractor_chain.py
index 925d5f52..f55f2232 100644
--- a/tests/llm_web_kit/extractor/test_extractor_chain.py
+++ b/tests/llm_web_kit/extractor/test_extractor_chain.py
@@ -369,4 +369,4 @@ def test_table_tail_text(self):
         input_data = DataJson(test_data)
         result = chain.extract(input_data)
         content_md = result.get_content_list().to_mm_md()
-        assert 'Online| ID: 975' in content_md
+        assert '| ID: 975' in content_md

From cdfd98ced1dd676cb356c166fe6e4e415af7a43d Mon Sep 17 00:00:00 2001
From: dt-yy <qywan918@163.com>
Date: Wed, 5 Mar 2025 21:00:11 +0800
Subject: [PATCH 22/22] add table tail test

---
 llm_web_kit/extractor/html/recognizer/table.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/llm_web_kit/extractor/html/recognizer/table.py b/llm_web_kit/extractor/html/recognizer/table.py
index f5ec5b77..cd7cd387 100644
--- a/llm_web_kit/extractor/html/recognizer/table.py
+++ b/llm_web_kit/extractor/html/recognizer/table.py
@@ -237,8 +237,6 @@ def __get_table_body(self, table_type, table_root):
                 elem.text = elem.text.strip().replace('\\n', '')
             if elem.tail is not None:
                 elem.tail = elem.tail.strip().replace('\\n', '')
-                if not elem.tail:
-                    elem.tail = None
         self.__simplify_td_th_content(table_root)
         # 迭代
         for child in table_root.iterchildren():

Function	Description	Example
`print()`	Prints a message to the console.	`print("Hello, World!")`
`len()`	Returns the length of an object.	`len([1, 2, 3])`
`range()`	Generates a sequence of numbers.	`range(1, 10)`
Function	Description	Example
print()	Prints a message to the console.	print("Hello, World!")
len()	Returns the length of an object.	len([1, 2, 3])
range()	Generates a sequence of numbers.	range(1, 10)
Client	+ https://dchublists.com/clients/FlylinkDC_x64.exe +
Status	Online \| ID: 975
URL	+ https://dchublists.com/hub-975 +
Address	+NMDC \| dchub://big-empty.ru +
ASN	+ Style-Com LLC +
Failover	+ Not available +
Name	Big-Empty
Topic	+ Not available +
Description	+ Хаб сети Arbital +
Category	+ Not available +
Software	+ PtokaX 0.5.3.0 +
Owner	+ Self +
Location	+ Russian Federation +
Users	+ 25 \| 55 +
Clones	0
Share	+ 4.39 TB \| 90.60 TB +
User limit	10000
Share limit	0 B
Slot limit	0
Hub limit	0
Reliability	99.04%
Checked	+ 2024-12-09 03:06:01 \| 2021-05-07 +
Votes	+ +0 \| -0 \| 0 +
Website	+ Not available +
Email	+ Not available +
Nick	Share
Darv1n	1.55 TB
PtokaX	0 B
1975	628.43 GB
AndyDesktop	0 B
Crtyujgfdscvgjh	35.54 GB
DaymarixZZZ	37.57 GB
Evgeniy_D	76.15 GB
Julia	0 B
Kuzma	0 B
Larsenv	0 B
MAXMED88888888	64.10 GB
Qwerty_ytr_R724	237.12 GB
SERG_B	149.65 GB
Sculli	156.92 GB
Shareaza4046	13.03 GB
Soliton	14.68 GB
Sweaborg	794.15 GB
Viktor138283	179.23 GB
[fly]Fire_dU3JR	10.72 GB
[fly]Monkey_QGrFy	124.72 GB
[fly]Moon_x7m	61.13 GB
kotbaun	0 B
marcs	3.62 GB
minili	59.30 GB
y2b4k698df328djei3	261.82 GB