浏览器是怎样工作的二:渲染引擎 HTML解析(3)
发布时间:2012-05-09 20:34:20
解析算法
如我们前面看到的,HTML无法使用自上而下或自下而上的解析器来解析。
理由如下:
语言的宽容特点
浏览器需要对无效HTML提供容错性的事实。
解析过程的反复。通常解析过程中源码不会变化。但在HTML中,script标签包含"document.write"时可以添加内容,即解析过程实际上还会改变源码。
浏览器创建了自己的解析器来解析HTML文档。
HTML5规范里对解析算法有具体的说明,解析由两部分组成:分词与构建树。
分词属于词法分析部分,它把输入解析成符号序列。在HTML中符号就是开始标签,结束标签,属性名称和属生值。
分词器识别这些符号并将其送入树构建者,然后继续分析处理下一个符号,直到输入结束。
图 6: HTML解析流程 (源自HTML5规范)
分词算法
算法的输出是HTML符号。算法可以用状态机来描述。 每一个状态从输入流中消费一个或多个字符,并根据它们更新下一状态。决策受当前符号状态和树的构建状态影响。这意味着同样的字符可能会产生不同的结果,取决于当前的状态。算法太复杂,我们用一个例子来看看它的原理。
基础示例,分析下面的标签:
<html>
<body>
Hello world
body>
html>
初始状态是"Data state",当遇到"<"时状态改为"Tag open state"。吃掉"a-z"字符组成的符号后产生了"Start tag token",状态变更为"Tag name state"。我们一直保持此状态,直到遇到">"。每个字符都被追加到新的符号名上。在我们的例子中,解出的符号就是"html"。
当碰到">"时,当前符号完成,状态改回"Data state"。""标签将会以同样的方式处理。现在"html"与"body"标签都完成了,我们回到"Data state"状态。吃掉"H"("Hello world"第一个字母)时会产生一个字符符号,直到碰到""的"<"符号,我们就完成了一个字符符号"Hello world"。
现在我们回到"Tag open state"状态。吃掉下一个输入"/"时会产生一个"end tag token"并变更为"Tag name state"状态。同样,此状态保持到我们碰到">"时。这时新标签符号完成,我们又回到"Data state"。同样""也会被这样处理。
图 9: 示例输入源的分词处理
树的构建算法
当解析器被创建时,文档对象也被创建了。在树的构建过程中DOM树的根节点(Documen)将被修改,元素被添加到上面去。每个分词器完成的节点都会被树构建器处理。规范中定义了每一个符号与哪个DOM对象相关。除了把元素添加到DOM树外,它还会被添加到一个开放元素堆栈。这个堆栈用于纠正嵌套错误和标签未关闭错误。这个算法也用状态机描述,它的状态叫做"insertion modes"。
让我们看看下面输入的树构建过程:
<html>
<body>
Hello world
body>
html>
树的构建过程中,输入就是分词过程中得到的符号序列。第一个模式叫"initial mode"。接收 html 符号后会变成"before html"模式并重新处理此模式中的符号。这会创建一个HTMLHtmlElement元素并追加到根文档节点。
然后状态改变为"before head"。我们收到"body"时,会隐式创建一个HTMLHeadElement,尽管我们没有这个标签,它也会被创建并添加到树中。
现在我们进入"in head"模式,然后是"after head",Body会被重新处理,创建HTMLBodyElement元素并插入,然后进入"in body"模式。
字符符号"Hello world"收到后会创建一个"Text"节点,所有字符都被一一追加到上面。
收到body结束标签后进入 "after body" 模式,收到html结束标签后进入"after after body"模式。所有符号处理完后将终止解析。
图 10: 示例HTML树的构建


猜你喜欢
- 比如:我们导入了某个客户的资料,我们知道此客户的姓名是ZhangShan,我们想知道,在我们的业务数据库(eg:NorthWind)中,有哪
- Pytest使用的断言是使用python内置的断言assert。Python assert(断言)用于判断一个表达式,在表达式条件为 fal
- 最近的一个页面中碰到的,本来想用 border 来模拟设计图的虚线效果,但是很明显 border 效果不如设计图来的好看。顺便研究了下 da
- Python生成指定数量的优惠码打开Python开发工具IDLE,新建‘codeGen.py'文件,并保存导入需要的包,这里需要ra
- Oracle 数据库启动Oracle shutdown的时候突然断电,导致使用sql/plus启动时无法连接到数据库,具体描述为: conn
- 一、时间日期基本介绍时间日期类型在Python中主要有两个模块:time模块 和 datetime模块time模块: 是基于Unix Tim
- 本文实例讲述了PHP编程文件处理类SplFileObject和SplFileInfo用法。分享给大家供大家参考,具体如下:php对于大文件的
- 本文实例讲述了wxPython使用系统剪切板的方法。分享给大家供大家参考。具体如下:程序运行效果如下图所示:主要代码如下:import wx
- 淘宝的投诉类型里有这么一条“收款不发货”。帮助中心里是这么解释的:买、卖双方在淘宝上成交后,当卖家在收到买家汇款后没有按时履行发货义务,或买
- poi介绍:Apache POI是用Java编写的免费开源的跨平台的Java API,Apache POI提供API给Java程序对Micr
- 1、效果图2、操作步骤File->Setting->Editor->File and TemplateIncludes/*
- Tensorflow训练模型默认占满所有GPU问题在使用gpu服务器训练tensorflow模型时,总是占满显存!TensorFlow默认的
- 前言目前机器学习框架有两大方向,Pytorch和Tensorflow 2。对于机器学习的小白的我来说,直观的感受是Tensorflow的框架
- 多标签分类器多标签分类任务与多分类任务有所不同,多分类任务是将一个实例分到某个类别中,多标签分类任务是将某个实例分到多个类别中。多标签分类任
- 分享一个用正则表达式校验电话号码、身份证号、日期格式、URL、Email等等格式的工具类package com.eabax.util;imp
- 油画的实现原理油画简单的理解是带有艺术感的图像,色彩相对于原图要更加鲜艳,但却是失真的。而且对于喜欢欣赏艺术的读者,肯定或多或少关注过油画,
- /* author: nick date: 2009.05.17 功能:生成SeletTree 属性: $result 结果集 $id_fi
- 我们经常使用nodeType==1判断元素是否是一个HMTLElement元素。页面上的元素都是节点(Node),有元素节点(Element
- 常见的反爬机制及处理方式1、Headers反爬虫 :Cookie、Referer、User-Agent解决方案: 通过F12获取header
- 如下所示:' '.join(line.split())例如:'line dd',运行line.split()