Linux操作系统下的离线浏览器介绍

本文将介绍如何实现一个离线浏览器,以下载并浏览网上资源 。
镜像目录结构
离线浏览下载到本地的网页时,需要解决的一个关键性问题就是“如何通过某一网页中的超级链接正确地定位其他网页” 。比较简便的方法是在用户指定的本地目录下建立一个目标网站的完整或部分镜像 。也就是按照文件在服务器端的目录结构保存下载的文件(参见下图) 。这样一来,如果网页中的超级链接是以相对路径形式给出的,那么浏览程序就可以直接通过此相对路径访问到本地文件系统中的网页;如果网页中的超级链接是以绝对的URL形式给出的,那么必须在保存网页之前将这些URL转换为本地绝对路径 。
在网络中,一个有效的URL应该只有唯一的网络文件与之对应 。因此,只要将网络上由URL所确定的层次关系,转化为本地文件系统中由目录路径所确定的层次关系,就可以建立网站在本地的完全或部分镜像 。下面讨论建立镜像的具体方法 。
镜像路径算法
首先,将下载网页时生成的URL拆分成协议类名(protocol)、IP地址(ipaddr)、目录名(directory)和文件名(file) 。
KDE环境提供了一个用于解析URL的类KURL,只需要定义一个对象KURL u((const char*)URL),就可以利用该类提供的成员函数将URL拆解为所需的部分 。但是,此类未提供对ASP定位语句的支持,所以读者可以在KURL的基础上编写自己的拆解函数,以完善程序功能 。
需要注意的是,在同一网络文件的URL中,网址部分可能是以域名地址形式给出的,也可能是以IP 地址形式给出的 。为了避免将同一文件镜像到不同目录下,如果网址是域名形式的,应该使用socket函数gethostbyname ()将其转换为IP地址 。
其次,确定网络文件在本地的镜像路径 。假设用户指定的本地目录存放在字符数组LDir中,则代码如下:
QString LocalDir = LDir“/”protocol“_”ipaddrdirectory
QString LocalPath = LocalDirfile;
这样一来,如果一个网络文件的URL是http://11.171.38.32/webfile/relax/index.html,而用户指定的本地目录是/home/yangjx/web,则此网页文件对应的镜像路径为/home/yangjx/web/http_11.171.38.32/webfile/relax/index.html 。
处理下载文件
有了镜像路径生成算法,接下来要对下载的文件做如下处理:
● 如果是网页文件,必须扫描文件,并将其中以绝对URL形式给出的超级链接替换成用镜像路径生成算法产生的本地绝对路径,而那些以相对路径形式给出的超级链接则保持不变;
● 建立相应的目录,并保存文件到绝对路径所指定的位置 。
在建立目录时,由于Linux提供的目录创建函数int mkdir(char * dir, int mode)只能在已存在的目录下建立一级子目录,所以要用“递归”方式构造一个目录创建函数:
static int CDirTools:: Mkdir(QString dir,int mode);
{;
QString parentdir
 if(dir.isEmpty());
//如果dir为空串返回失败;
return -1
 int result = mkdir(dir,mode)
 if(result == -1 && errno == EEXIST) //如果dir目录已经存在,则返回1;
return 1
 if(result != -1);
//如果建立成功,则返回0;
return 0
 else;
 {//否则先创建其父目录;
KURL u((const char *)dir)
//取得dir的父目录;
parentdir = url.directory(false)
if(Mkdir(parentdir) == -1);
//如果父目录创建失败,则返回-1;否则再次创建本目录;
 return -1
if(mkdir(dir,mode) == -1);
//如果本目录创建失败,则返回-1;
return -1
 };
}
编程实现
Linux操作系统的桌面环境KDE提供了一个文件管理器KFM,它和IE一样既可以浏览本地目录和文件,也可以浏览网页,并且KFM还提供了C编程接口: KHTMLView类 。我们可以创建一个KHTMLView类的子类CHtmlView来浏览下载的网页文件 。

推荐阅读