c#远程html数据抓取实例分享
发布时间:2023-07-03 12:50:49
标签:c#远,程html,数据抓取
/// <summary>
/// 获取远程html
/// </summary>
/// <param name="url"></param>
/// <param name="methed"></param>
/// <param name="param"></param>
/// <param name="html"></param>
/// <returns></returns>
public static bool GetHttp(string url, string methed, string param, out string html)
{
methed = methed.ToLower();
if (param != null && methed == "get" && param.Length > 0)
{
url += "?" + param;
}
try
{
MSXML2.XMLHTTP mx = new MSXML2.XMLHTTPClass();
mx.open(methed, url, false, null, null);
if (param != null && methed == "post" && param.Length > 0)
{
mx.setRequestHeader("Content-Length", param.Length.ToString());
mx.setRequestHeader("Content-Type", "application/x-www-form-urlencoded");
}
mx.send(param);
if (mx.readyState != 4)
{
html = "远程连接失败:-4";
return false;
}
html = mx.responseText;
return true;
}
catch (Exception ex)
{
html = "远程连接失败:"+ex.Message;
return false;
}
}
public static bool GetHttp1(string url, string methed, string param, string referer, string encode, out string html)
{
//return GetHttp(url,methed,param,out html);
//string encode = "utf-8";
//string methed = sendType.ToString();
if (param != null && methed == "get" && param.Length > 0)
{
if (url.IndexOf("?") >= 0)
{
url += "&" + param;
}
else
{
url += "?" + param;
}
}
try
{
HttpWebRequest webreq = (HttpWebRequest)WebRequest.Create(url);
webreq.Proxy=null;
webreq.Timeout = 1000 * 6;
webreq.ContentType = "application/x-www-form-urlencoded";
webreq.UserAgent = "User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0";
//webreq.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)";
//谷歌的:User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36
//火狐的:User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0
//标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息
//webreq.AllowAutoRedirect = false;
//频繁请求一个网址时,过段时间就会出现“基础连接已经关闭”
//webreq.KeepAlive = false;
//webreq.ProtocolVersion = HttpVersion.Version10;
if (referer.Length > 0)
{
webreq.Referer = referer;
}
CookieContainer mycookies = new CookieContainer();
webreq.CookieContainer = mycookies;
//if (this.cookieList != null)
//{
// webreq.CookieContainer.Add(this.GetCookies(webreq.RequestUri, this.cookieList));
//}
webreq.Method = methed;
//post 开始
if (param != null && methed == "post")
{
byte[] arrbyte = Encoding.GetEncoding(encode).GetBytes(param);
webreq.ContentLength = arrbyte.Length;
Stream newStream = webreq.GetRequestStream();
newStream.Write(arrbyte, 0, arrbyte.Length);
newStream.Close();
}
//post 结束
WebResponse w = webreq.GetResponse();
//返回HTML
using (HttpWebResponse webres = (HttpWebResponse)webreq.GetResponse())
{
using (Stream dataStream = webres.GetResponseStream())
{
using (StreamReader reader = new StreamReader(dataStream, Encoding.GetEncoding(encode)))
{
html = reader.ReadToEnd();
//this.cookieList = webreq.CookieContainer.GetCookies(webreq.RequestUri);
webreq.Abort();//可能会解决卡住或阻塞问题
}
}
}
}
catch (Exception ex)
{
html = "出现异常(HttpHelper.GetHTML),远程连接失败:" + ex.Message + " url:" + url;
//System.Windows.Forms.MessageBox.Show(html);
return false;
}
return true;
}


猜你喜欢
- 在上一篇实现了简单的画板功能, 这篇实现橡皮擦功能,首先分析一下应该如何实现,在Andriod有个图像混合(Xfermode)概念,利用这个
- 目录事件最基本的用法理解路由事件WPF中使用路由事件升级了传统应用开发中的事件,在WPF中使用路由事件能更好的处理事件相关的逻辑,我们从这篇
- 最大公约数:指两个或多个整数共有约束中最大的一个。最小公倍数:如果有一个自然数a能被自然数b整除,则称a为b的倍数,b为a的约数,对于两个整
- 记得当初自己刚开始学习Java的时候,对Java的IO流这一块特别不明白,所以写了这篇随笔希望能对刚开始学习Java的人有所帮助,也方便以后
- 最近公司项目中有一个类似滴滴出行填写验证码的弹框,下面是我撸出来的效果: 中间的那个输入密码的6个框框其实就是用shape画的背景
- JAVA用于开发图形界面应用的 SWING 组件包功能强大,使用方便。接下来我们就使用其写一个简单的图形界面小程序:加法计算器。第一步:首先
- C#异步方法返回void和Task的区别如果异步(async关键字)方法有返回值,返回类型为T时,返回类型必然是 Task<T>
- 目录Java反射超详解1.反射基础1.1Class类1.2类加载2.反射的使用2.1Class对象的获取 2.2Construct
- 目录一、首先模型本身需要特殊处理二、编写Shader三、讲解先上图看看效果:下面详细分享一下制作步骤吧:一、首先模型本身需要特殊处理二、编写
- 单点登录(SSO):SSO是指在多个应用系统中个,用户只需要登陆一次就可以访问所有相互信任的应用系统。它包括可以将这次主要的登录映射到其他应
- AbstractAutowireCapableBeanFactory#applyMergedBeanDefinitionPostProces
- 这是同一个问题,Listview中点击item是会变颜色的,因为listview设置了默认的listselector,有一个默认的颜色,同理
- 哈喽大家好啊,我是Hydra。Spring作为项目中不可缺少的底层框架,提供的最基础的功能就是bean的管理了。bean的注入相信大家都比较
- 起因最近在写CRUD的时候,发现有个分页的VO写的健壮性比较差,一时手痒改了一下,没想到改了之后好几个功能都出现了问题。原VO关键代码如下:
- 译者注:个人觉得用定时任务来跑垃圾回收不是很好的例子,从译者接触到的项目来看,比较常见的是用定时任务来进行非实时计算,清除临时数据、文件等。
- 通过JDK的Proxy代理实现对业务类做简单的AOP实现接口:UserService 包含的方法为切入点,会被代理拦截类:UserServi
- 前段时间分享了《阅读跟踪 Java 源码的几个小技巧》是基于 Eclipse 版本的,看大家的留言都是想要 IDEA 版本的源码阅读技巧。所
- 一、查看线程的运行状态题目线程有以下6种状态:新建、运行、阻塞、等待、计时等待和终止。new新线程时,线程处于新建 状态。调用start()
- final可以修饰类 ,成员变量,局部变量和方法。1.final修饰成员变量1.final成员变量的初始化对于final修饰的变量,系统不会
- 当我们在登录像QQ邮箱这种大多数的网站,往往在登录按键上会有下次自动登录这个选项,勾选后登录成功,在一段时间内,即便退出浏览器或者服务器重启