python的html.parser问题

weixin_38049216 2016-11-21 05:45:15

#代码是很初级的，用于得到python官网网页源代码里事件的时间及地点，但出现的错误很奇怪，网上也找不到 from html.parser import HTMLParser from html.entities import name2codepoint class myhtmlparser(HTMLParser): def __init__(self): self.summary={'date':[],'location':['myend']} def handle_starttag(self,tag,attrs): if tag=='time': self.summary['date'].apeend(str(attrs)) def handle_data(self,data): self.summary['location'].remove('myend') self.summary['location'].append(str(data)) self.summary['location'].append('myend') def get_print(self): for x in range(100): if self.summary['location'][x]=='myend': break else: print('event%s:\n date: %s location:%s'%(str(x+1),self.summary['date'][x],self.summary['location'][x])) htm=""" \\此处为html源代码 """ parser=myhtmlparser() parser.feed(htm) parser.get_print() 以下是输出结果 c:\Pythonfile>python test1.py Traceback (most recent call last): File "test1.py", line 939, in <module> parser.feed(htm) File "C:\My_install\python\lib\html\parser.py", line 110, in feed self.rawdata = self.rawdata + data AttributeError: 'myhtmlparser' object has no attribute 'rawdata'

...全文

40 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Soup = BeautifulSoup(f.read(), 'lxml')#由于版本问题lxml不可用，可以换成 Soup = BeautifulSoup(f.read(), 'html.parser'） html.parser解析出的中文乱码，需要 Soup = BeautifulSoup(f.read(), 'html.parser', from_encoding="gb18030") 在后面带上参数 ...

python：html.parser --- 简单的 HTML 和 XHTML 解析器

html.parser 是 Python 标准库中用于解析 HTML 文件的模块，提供了一个基础类 HTMLParser，通过继承并重写其方法，可以提取网页中的标签、属性与文本内容。这是一个基于事件驱动（event-driven）的类，它会在遇到 HTML 标签时触发对应的处理方法（如 handle_starttag()、handle_data() 等），你需要通过继承它并重写这些方法来自定义行为。在某些流式解析场景中，.close() 可用于标记输入结束并清理状态，但通常 .feed() 足以完成解析。

html.parser是一个非常简单和实用的库，它的核心是HTMLParser类。工作的流程是：当你feed给它一个类似HTML格式的字符串时，它会调用goahead方法向前迭代各个标签，并调用对应的parse_xxxx方法提取start_tag, tag, attrs data comment和end_tag等等标签信息和数据，然后调用对应的方法对这些抽取出来的内容进行处理。整个HTMLPars...

lxml适用于处理较大的XML文件，如果你需要解析和操作大型的XML文件，那么lxml是一个不错的选择，因为lxml提供了高效的内存管理机制和先进的XPath选择器语法。通过html.parser可以轻松地解析HTML文档中的数据，本实践介绍了如何使用html.parser解析HTML格式的网页数据，并提取出所需的数据。html.parser官方文档：https://docs.python.org/3/library/html.parser.html。lxml官方文档：http://lxml.de/

其他技术讨论专区

477

社区成员

790,955

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章