c#远程html数据抓取实例分享
发布时间:2023-07-03 12:50:49
标签:c#远,程html,数据抓取
/// <summary>
/// 获取远程html
/// </summary>
/// <param name="url"></param>
/// <param name="methed"></param>
/// <param name="param"></param>
/// <param name="html"></param>
/// <returns></returns>
public static bool GetHttp(string url, string methed, string param, out string html)
{
methed = methed.ToLower();
if (param != null && methed == "get" && param.Length > 0)
{
url += "?" + param;
}
try
{
MSXML2.XMLHTTP mx = new MSXML2.XMLHTTPClass();
mx.open(methed, url, false, null, null);
if (param != null && methed == "post" && param.Length > 0)
{
mx.setRequestHeader("Content-Length", param.Length.ToString());
mx.setRequestHeader("Content-Type", "application/x-www-form-urlencoded");
}
mx.send(param);
if (mx.readyState != 4)
{
html = "远程连接失败:-4";
return false;
}
html = mx.responseText;
return true;
}
catch (Exception ex)
{
html = "远程连接失败:"+ex.Message;
return false;
}
}
public static bool GetHttp1(string url, string methed, string param, string referer, string encode, out string html)
{
//return GetHttp(url,methed,param,out html);
//string encode = "utf-8";
//string methed = sendType.ToString();
if (param != null && methed == "get" && param.Length > 0)
{
if (url.IndexOf("?") >= 0)
{
url += "&" + param;
}
else
{
url += "?" + param;
}
}
try
{
HttpWebRequest webreq = (HttpWebRequest)WebRequest.Create(url);
webreq.Proxy=null;
webreq.Timeout = 1000 * 6;
webreq.ContentType = "application/x-www-form-urlencoded";
webreq.UserAgent = "User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0";
//webreq.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)";
//谷歌的:User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36
//火狐的:User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0
//标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息
//webreq.AllowAutoRedirect = false;
//频繁请求一个网址时,过段时间就会出现“基础连接已经关闭”
//webreq.KeepAlive = false;
//webreq.ProtocolVersion = HttpVersion.Version10;
if (referer.Length > 0)
{
webreq.Referer = referer;
}
CookieContainer mycookies = new CookieContainer();
webreq.CookieContainer = mycookies;
//if (this.cookieList != null)
//{
// webreq.CookieContainer.Add(this.GetCookies(webreq.RequestUri, this.cookieList));
//}
webreq.Method = methed;
//post 开始
if (param != null && methed == "post")
{
byte[] arrbyte = Encoding.GetEncoding(encode).GetBytes(param);
webreq.ContentLength = arrbyte.Length;
Stream newStream = webreq.GetRequestStream();
newStream.Write(arrbyte, 0, arrbyte.Length);
newStream.Close();
}
//post 结束
WebResponse w = webreq.GetResponse();
//返回HTML
using (HttpWebResponse webres = (HttpWebResponse)webreq.GetResponse())
{
using (Stream dataStream = webres.GetResponseStream())
{
using (StreamReader reader = new StreamReader(dataStream, Encoding.GetEncoding(encode)))
{
html = reader.ReadToEnd();
//this.cookieList = webreq.CookieContainer.GetCookies(webreq.RequestUri);
webreq.Abort();//可能会解决卡住或阻塞问题
}
}
}
}
catch (Exception ex)
{
html = "出现异常(HttpHelper.GetHTML),远程连接失败:" + ex.Message + " url:" + url;
//System.Windows.Forms.MessageBox.Show(html);
return false;
}
return true;
}
0
投稿
猜你喜欢
- 使用InsertProvider注解报错解决目前项目在使用mybatis,并且是使用注解的方式。在使用InsertProvider注解的时候
- 代码很简单,这里就不多废话了,直接奉上代码using UnityEngine;using System.Collections;public
- Java调用shell命令涉及管道、重定向时不生效近日,因项目需求需要用java调用shell命令实现清理过时图片任务,发现代码生成出来的s
- 看过阿里巴巴开发手册的同学应该都会对Integer临界值127有点印象。原文中写的是:【强制】所有整型包装类对象之间值的比较,全部使用 eq
- 在Spring Boot集成Mybatis的项目中,如果出现SQL语句执行问题,我们需要进行排查。此时就需要打印对应的SQL语句,那么该如何
- 一、创建一个cs文件,定义Time 对象 public class WebTimer_AutoRepayment{ &n
- Oracle公司如期发布了Java 8正式版!没有让广大javaer失望。对于一个人来说,18岁是人生的转折点,从稚嫩走向成熟,法律意味着你
- 1.<constant name="struts.i18n.encoding" value="UTF-8
- 在高并发的系统中,往往需要在系统中做限流,一方面是为了防止大量的请求使服务器过载,导致服务不可用,另一方面是为了防止网络攻击。常见的限流方式
- 一、使用Json.NetJson.Net是支持序列化和反序列化DataTable、DataSet、Entity Framework和Enti
- 首先声明一点,这里的重试并不是报错以后的重试,而是负载均衡客户端发现远程请求实例不可到达后,去重试其他实例。@Bean@LoadBalanc
- 前端控制器是整个MVC框架中最为核心的一块,它主要用来拦截符合要求的外部请求,并把请求分发到不同的控制器去处理,根据控制器处理后的结果,生成
- 三目条件运算公式为 x?y:z 其中x的运算结果为boolean类型,先计算x的值,若为true,则整个三目运算的结果为表达式y
- 网上的教程大都是手动通过protoc编译, 比较难用给当前工程添加"Google.Protobuf"和"Grp
- 本文实例为大家分享了java实现推箱子游戏的具体代码,供大家参考,具体内容如下运行示例:图形界面由swing组件构成生成地图的算法如下创建地
- Logger来自log4j自己的包。如果用Logger.getLogger,需要一个log4j的jar包,用此方式你只能依log4j:Log
- 一、事件背景个人感觉自己做性能测试,可以说是轻车熟路了,而且工作多年一直都是这一套测试思路及体系,从未质疑过自己,也许是狮子座的迷之自信吧!
- 本文实例讲述了C#通过属性名字符串获取、设置对象属性值操作.分享给大家供大家参考,具体如下:#通过反射获取对象属性值并设置属性值0、定义一个
- java 工厂模式的实例详解工厂方法中的“工厂”和我们平常理解的一样:用于生产产品。而客户是要和产品打交道,所以工厂方法模式的意义在于把客户
- 本文实例讲述了Android列表控件Spinner简单用法。分享给大家供大家参考,具体如下:Android的Spinner控件用来显示列表项