零基础写Java知乎爬虫之将抓取的内容存储到本地
作者:hebedich 发布时间:2022-08-16 20:25:45
标签:Java,爬虫,知乎
说到Java的本地存储,肯定使用IO流进行操作。
首先,我们需要一个创建文件的函数createNewFile:
public static boolean createNewFile(String filePath) {
boolean isSuccess = true;
// 如有则将"\\"转为"/",没有则不产生任何变化
String filePathTurn = filePath.replaceAll("\\\\", "/");
// 先过滤掉文件名
int index = filePathTurn.lastIndexOf("/");
String dir = filePathTurn.substring(0, index);
// 再创建文件夹
File fileDir = new File(dir);
isSuccess = fileDir.mkdirs();
// 创建文件
File file = new File(filePathTurn);
try {
isSuccess = file.createNewFile();
} catch (IOException e) {
isSuccess = false;
e.printStackTrace();
}
return isSuccess;
}
然后,我们需要一个写入文件的函数:
public static boolean writeIntoFile(String content, String filePath,
boolean isAppend) {
boolean isSuccess = true;
// 先过滤掉文件名
int index = filePath.lastIndexOf("/");
String dir = filePath.substring(0, index);
// 创建除文件的路径
File fileDir = new File(dir);
fileDir.mkdirs();
// 再创建路径下的文件
File file = null;
try {
file = new File(filePath);
file.createNewFile();
} catch (IOException e) {
isSuccess = false;
e.printStackTrace();
}
// 写入文件
FileWriter fileWriter = null;
try {
fileWriter = new FileWriter(file, isAppend);
fileWriter.write(content);
fileWriter.flush();
} catch (IOException e) {
isSuccess = false;
e.printStackTrace();
} finally {
try {
if (fileWriter != null)
fileWriter.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return isSuccess;
}
我们把这两个函数封装到一个FileReaderWriter.java文件中以便后续使用。
接着我们回到知乎爬虫中。
我们需要给知乎的Zhihu封装类加个函数,用来格式化写入到本地时的排版。
public String writeString() {
String result = "";
result += "问题:" + question + "\r\n";
result += "描述:" + questionDescription + "\r\n";
result += "链接:" + zhihuUrl + "\r\n";
for (int i = 0; i < answers.size(); i++) {
result += "回答" + i + ":" + answers.get(i) + "\r\n";
}
result += "\r\n\r\n";
return result;
}
OK,这样就差不多了,接下来吧mian方法中的System.out.println改成
// 写入本地
for (Zhihu zhihu : myZhihu) {
FileReaderWriter.writeIntoFile(zhihu.writeString(),
"D:/知乎_编辑推荐.txt", true);
}
运行,便可以看到本来在控制台看到的内容已经被写到了本地的txt文件里:
大体一看没什么问题,仔细看看发现问题:存在太多的html标签,主要是<b>和<br>。
我们可以在输出的时候对这些标记进行处理。
先把<br>换成io流里面的\r\n,再把所有的html标签都删除,这样看起来便会清晰很多。
public String writeString() {
// 拼接写入本地的字符串
String result = "";
result += "问题:" + question + "\r\n";
result += "描述:" + questionDescription + "\r\n";
result += "链接:" + zhihuUrl + "\r\n";
for (int i = 0; i < answers.size(); i++) {
result += "回答" + i + ":" + answers.get(i) + "\r\n\r\n";
}
result += "\r\n\r\n\r\n\r\n";
// 将其中的html标签进行筛选
result = result.replaceAll("<br>", "\r\n");
result = result.replaceAll("<.*?>", "");
return result;
}
这里的replaceAll函数可以使用正则,于是所有的<>标签在最后就都被删除了。


猜你喜欢
- 一、概念1.1、什么是服务治理Spring Cloud 封装了 Netflix 公司开发的 Eureka 模块来实现服务治理服务治理就是提供
- Java开发中使用IDE工具肯定会很大程度的提高开发效率,但是有时候需要用java命令在服务器上启动Java工程代码来完成一系列的功能 ,当
- 编码问题,有两种方式可以解决,一是在您的程序中直接使用setlocale函数设置Windows的编码方式为中文(好像中文的值是.936);s
- JWT本文代码截取自实际项目。jwt(Json Web Token),一个token,令牌。简单流程:用户登录成功后,后端返回一个token
- 前面已经认识了不同的数据类型,你们有没有尝试过让不同的数据类型进行运算呢?int a = 1;double b = a;Console.Wr
- 一、分析这篇将会讲解撤销反撤销功能的实现,先讨论一下这个原理是怎么样实现的。每次撤回的内容,内容是怎么定义呢? 其实就是每一笔,每一笔作为撤
- 1.指针指针就是地址(即一个数据)。2.指针变量2.1概念(1)指针变量是变量,是变量在内存中就会开辟空间,会有自己对应的的地址,有自己的变
- 前言在移动互联网浪潮中,联网APP已经把单机拍死在沙滩上,很多公司都希望自家应用能够有一套帐号系统,可是许多用户却并不一定买账:
- 题目:在数组中的两个数字如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对。输入一个数组,求出这个数组中的逆序对的总数例如在数组{7
- 应用启动的时候有短暂的白屏,如图:可以通过设置theme的方式来解决 <style name="AppTheme"
- Android9.0无法通过以下两种方式实现静默安装:1.runtime执行shell cmd2.PackageInstall 反射机制但是
- 使用 fragmentLayout 实现,可以把小红点添加到任意 view 上。效果 添加小红点到 textview 上添加小红点到 ima
- C#编写的简单数字图像处理程序,数字图像处理的平时成绩和编程作业竟然占50%,那就把最近做的事写个札记吧。先放个最终做成提交的效果看看:1.
- NDK部分1、下载ndk这里就一笔带过了。2、解压ndk不要解压,文件权限会出错。执行之,会自动解压,然后mv到想放的地方。我放到了”/us
- 本文实例实现C#以一个收银付费的小程序演示switch case语法如何使用,读入用户选择,把用户的选择赋值给变量n,再根据用户的输入提示付
- 一.NET Remoting 介绍简介.NET Remoting与MSMQ不同,它不支持离线可得,另外只适合.NET平台的程序进行通信。它提
- 字符串是由零个或多个字符组成的有限序列,是几乎所有编程语言中可以实现的非常重要和有用的数据类型。在C#语言中,字符串是System.Stri
- =====最大线程数====linux 系统中单个进程的最大线程数有其最大的限制 PTHREAD_THREADS_MAX这个限制可以在 /u
- 1.导入相关jar包,具体哪些包我记不太清了2.在applicationContext中加入相关配置信息,如下所示:<beans xm
- 本文实例讲述了Android编程实现二维码的生成与解析。分享给大家供大家参考,具体如下:直接上代码,代码上面有具体的解析,并且提供jar供下