使用python解析xml成对应的html示例分享
发布时间:2022-05-05 21:02:27
SAX将dd.xml解析成html。当然啦,如果得到了xml对应的xsl文件可以直接用libxml2将其转换成html。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#---------------------------------------
# 程序:XML解析器
# 版本:01.0
# 作者:mupeng
# 日期:2013-12-18
# 语言:Python 2.7
# 功能:将xml解析成对应的html
# 注解:该程序用xml.sax模块的parse函数解析XML,并生成事件
# 继承ContentHandler并重写其事件处理函数
# Dispatcher主要用于相应标签的起始、结束事件的派发
#---------------------------------------
from xml.sax.handler import ContentHandler
from xml.sax import parse
class Dispatcher:
def dispatch(self, prefix, name, attrs=None):
mname = prefix + name.capitalize()
dname = 'default' + prefix.capitalize()
method = getattr(self, mname, None)
if callable(method): args = ()
else:
method = getattr(self, dname, None)
#args = name
#if prefix == 'start': args += attrs
if callable(method): method()
def startElement(self, name, attrs):
self.dispatch('start', name, attrs)
def endElement(self, name):
self.dispatch('end', name)
class Website(Dispatcher, ContentHandler):
def __init__(self):
self.fout = open('ddt_SAX.html', 'w')
self.imagein = False
self.desflag = False
self.item = False
self.title = ''
self.link = ''
self.guid = ''
self.url = ''
self.pubdate = ''
self.description = ''
self.temp = ''
self.prx = ''
def startChannel(self):
self.fout.write('''<html>\n<head>\n<title> RSS-''')
def endChannel(self):
self.fout.write('''
<tr><td height="20"></td></tr>
</table>
</center>
<script>
function GetTimeDiff(str)
{
if(str == '')
{
return '';
}
var pubDate = new Date(str);
var nowDate = new Date();
var diffMilSeconds = nowDate.valueOf()-pubDate.valueOf();
var days = diffMilSeconds/86400000;
days = parseInt(days);
diffMilSeconds = diffMilSeconds-(days*86400000);
var hours = diffMilSeconds/3600000;
hours = parseInt(hours);
diffMilSeconds = diffMilSeconds-(hours*3600000);
var minutes = diffMilSeconds/60000;
minutes = parseInt(minutes);
diffMilSeconds = diffMilSeconds-(minutes*60000);
var seconds = diffMilSeconds/1000;
seconds = parseInt(seconds);
var returnStr = "±±¾©·¢²¼Ê±¼ä£º" + pubDate.toLocaleString();
if(days > 0)
{
returnStr = returnStr + " £¨¾àÀëÏÖÔÚ" + days + "Ìì" + hours + "Сʱ" + minutes + "·ÖÖÓ£©";
}
else if (hours > 0)
{
returnStr = returnStr + " £¨¾àÀëÏÖÔÚ" + hours + "Сʱ" + minutes + "·ÖÖÓ£©";
}
else if (minutes > 0)
{
returnStr = returnStr + " £¨¾àÀëÏÖÔÚ" + minutes + "·ÖÖÓ£©";
}
return returnStr;
}
function GetSpanText()
{
var pubDate;
var pubDateArray;
var spanArray = document.getElementsByTagName("span");
for(var i = 0; i < spanArray.length; i++)
{
pubDate = spanArray[i].innerHTML;
document.getElementsByTagName("span")[i].innerHTML = GetTimeDiff(pubDate);
}
}
GetSpanText();
</script>
</body>
</html>
''')
self.fout.close()
def characters(self, chars):
if chars.strip():
#chars = chars.strip()
self.temp += chars
#print self.temp
def startTitle(self):
if self.item:
self.fout.write('''
<tr bgcolor="#eeeeee">\n<td style="padding-top:5px;padding-left:5px;" height="30">\n<B>
''')
def endTitle(self):
if not self.imagein and not self.item:
self.title = self.temp
self.temp = ''
self.fout.write(self.title.encode('gb2312'))
#self.title = self.temp
self.fout.write('''
</title>\n</head>\n<body>\n<center>\n
<script>\n
function copyLink()
{
clipboardData.setData("Text",window.location.href);
alert("RSSÁ´½ÓÒѾ­¸´ÖƵ½¼ôÌù°å");
}
function subscibeLink()
{
var str = window.location.pathname;
while(str.match(/^\//))
{
str = str.replace(/^\//,"");
}
window.open("http://rss.sina.com.cn/my_sina_web_rss_news.html?url=" + str,"_self");
}
</script>\n
<table width="750" cellpadding="0" cellspacing="0">\n
<tr>\n
<td align="right" style="padding-right:15px;" valign="bottom">\n
''')
if self.item:
self.title = self.temp
self.temp = ''
self.fout.write(self.title.encode('gb2312'))
self.fout.write('''
</B>
</td>
</tr>
<tr bgcolor="#eeeeee">
<td style="padding-left:5px;">
''')
def startImage(self):
self.imagein = True
def endImage(self):
self.imagein = False
def startLink(self):
if self.imagein:
self.fout.write('''<A href=" ''')
def endLink(self):
self.link = self.temp
self.temp = ''
if self.imagein:
self.fout.write(self.link.encode('gb2312'))
self.fout.write('''" target="_blank">\n ''')
elif self.item:
#self.link = self.temp
pass
else:
self.fout.write(self.link)
self.fout.write(''' " target="
_blank
"> ''')
self.fout.write(self.title.encode('gb2312'))
self.fout.write(''' </A></B></td>
</tr>
<tr><td colspan="2" align="center">
''')
self.fout.write(self.description.encode('gb2312'))
self.fout.write('''
</td></tr>
<tr style="font-size:12px;" bgcolor="#eeeeff"><td colspan="2" style="font-size:14px;padding-top:5px;padding-bottom:5px;"><b><a href="javascript:copyLink();">¸´ÖÆ´ËÒ³Á´½Ó</a> <a href="javascript:subscibeLink();">ÎÒҪǶÈë¸ÃÐÂÎÅÁÐ±íµ½ÎÒµÄÒ³Ã棨¼òµ¥¡¢¿ìËÙ¡¢ÊµÊ±¡¢Ãâ·Ñ£©</a></b></td></tr>
</table>
<table width="750" cellpadding="0" cellspacing="0">
''')
def startUrl(self):
if self.imagein:
self.fout.write('''<IMG src=" ''')
def endUrl(self):
self.url = self.temp
self.temp = ''
if self.imagein:
self.fout.write(self.url.encode('gb2312'))
self.fout.write('''" border="0">\n
</A>
</td>
<td align="left" valign="bottom" style="padding-bottom:8px;"><B><A href="
''')
if self.item:
#self.url = self.temp
pass
def defaultStart(self):
pass
def defaultEnd(self):
self.temp = ''
def startDescription(self):
pass
def endDescription(self):
self.description = self.temp
self.temp = ''
if self.item:
#self.fout.write('¡¡¡¡')
self.fout.write(self.description.encode('gb2312'))
def endGuid(self):
self.guid = self.temp
def endPubdate(self):
if not self.temp.startswith('http'):
self.pubdate = self.temp
self.temp = ''
else:
self.pubdate = ''
def startItem(self):
self.item = True
def endItem(self):
self.item = False
self.fout.write('''
</td>
</tr>
<tr bgcolor="#eeeeee">
<td style="padding-top:5px;padding-left:5px;">
<A href="''')
self.fout.write(self.link)
self.fout.write(''' " target="_blank"> ''')
self.fout.write(self.guid)
self.fout.write('''
</A>
</td>
</tr>
<tr bgcolor="#eeeeee">
<td style="padding-top:5px;padding-left:5px;padding-bottom:5px;"><span>''')
self.fout.write(self.pubdate)
self.fout.write('''</span></td>
</tr>
<tr height="10"><td></td></tr>''')
#程序入口
if __name__ == '__main__':
parse('ddt.xml', Website())
猜你喜欢
- 前言sort包中实现了3种基本的排序算法:插入排序.快排和堆排序.和其他语言中一样,这三种方式都是不公开的,他们只在sort包内部使用.所以
- Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者
- SQL注入攻击的总体思路是:1.发现SQL注入位置;2.判断后台数据库类型;3.确定XP_CMDSHELL可执行情况4.发现WEB虚拟目录5
- 前言 日益增长的分布式应用需求要求实现更好分布式的软件环境,不断推动着分布式技术的进步。Oracle数据复制是实现分布式数据环境的一种技术,
- 在Python中的break语句终止当前循环,继续执行下一个语句,就像C语言中的break一样。break最常见的用途是当一些外
- matplotlib官方文档:https://matplotlib.org/stable/users/index.htmlmatplotli
- 1.较复杂的查询操作1.1 参数占位符 #{} 和 ${}#{}:预处理符,如将id=#{2}替换为id=?,然后使用2替换?。${}:替换
- 在任何编辑器中,获取光标位置都是非常重要的,很多人可能认为较难,其实只要处理好浏览器的兼容,还是比较容易实现的。下面我们一起来看看如何获取到
- 1、文件上传(input标签) (1)html代码(form表单用post方法提交)<input class="b
- Python upper()方法Python 字符串描述Python upper() 方法将字符串中的小写字母转为大写字母。语法upper(
- jupyter notebook更换皮肤主题视频地址:https://www.bilibili.com/video/BV1Et4y1D7ru
- # 判断三角形类型def triangle(a,b,c): if a>0 and b>0 and c>0: &
- 简介壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物。然而,终究有一天你已经
- 情景一:不需要原有的数据库数据删除数据库所有的表删除项目的migration模块中的所有 文件,除了__init__.py 文件执行脚本py
- 在制作一个 Python 分发包时经常需要把一些文件添加到包中。最常见的例子是你希望通过 pip install 命令安装 Pyt
- 一、前言提到 limit 优化,大多数 MySQL DBA 都不会陌生,能想到各种应对策略,比如延迟关联,书签式查询等等,之前我也写过一篇优
- 一、首先我们来填个坑支付验签失败这个问题折磨了我两天,官方文档比较含糊不清。各种百度下来的方法试过之后也不尽人意,最后发现问题是没有二次签名
- 最近打开电脑wifi连接老是出现各种问题,于是突发奇想,我自己能不能做一个wifi连接的小工具岂不是就没有这些麻烦了,居然成功了。为了方便不
- 1. 安装yaml库想要使用python实现yaml与json格式互相转换,需要先下载pip,再通过pip安装yaml库。如何下载以及使用p
- 一、调用百度接口进行人脸属性识别安装好baidu-aip模块,获取了百度AI接口密钥后,即可调用百度接口进行人脸属性识别了。首先以杨紫的图片