从html富文本中提取纯文本的JS程序

  SEO工作中,经常遇到这样的情况,好不容易找到想要的材料了,但是,目标材料所在的网站程序屏蔽了复制功能,让你看着材料却下载不下来,着实令人着急。
 
  解决办法,其实很简单,由于目标网站屏蔽了鼠标右键复制功能,所以右键查看源码也是行不通的。这个时候,可以尝试CTR+U快捷键,打开源码,把含有HTML+文本的代码复制出来。然后通过程序去年HTML标签,剩下就是你需要的目标材料了。
 
  当然,可能还有人,目标网站也可能屏蔽的快捷键,没关系,还有办法,把目标材料所在的网址记下来,然后用站长工具中“查看网页源码”这个小工具,就可以把HTML富文本全部摘出来。方法类同,用下来的代码去掉HTML标签,就可以拿到自己需要的材料了。
 
  其实从html富文本中提取纯文本很简单,富文本基本上是使用html标签给文本加上丰富多彩的样式。所以只需要将富文本字符串中的“<.....>”标签剔除,即可得到纯文本。我们可以使用正则表达式,来匹配所有的html标签,并替换成空字符,如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>从html富文本中提取纯文本的JS程序</title>
</head>
<body>
<!--含HTML富文本代码开始-->
  
<div>    织梦可以自定义2种类型的变量,局部变量、全局变量。通过自定义变量,方便的输出任意字段,让开发更自由,功能更强悍。</div>
  
<div>    &nbsp;</div>
  
<div>    <strong>一、自定义全局变量</strong></div>
  
<div>    &nbsp;</div>
  
<div>    类似{dede:global.cfg_webname/}的变量,我们称之为全局变量,它可以在网站的任何地方显示/调用后台上传的数据。自定义一个联系电话cfg_contel的全局变量,步骤如下:</div>
  
<div>    &nbsp;</div>
  
<div>    1.打开&ldquo;系统&mdash;&mdash;&gt;基本参数&mdash;&mdash;&gt;添加新变量&rdquo;菜单,输入&ldquo;变量名称、参数说明&rdquo;,设置变量类型为&ldquo;文本&rdquo;。</div>
   <divstyle="text-align:center;">    <br/>
   <imgalt="seo专业优化平台"src="/uploads/allimg/200221/1-200221221124255.jpg"title="seo专业优化平台"/>
</div>
  
<div>    &nbsp;</div>
  
<div>    2.保存变量之后,可以在&ldquo;系统&mdash;&mdash;&gt;基本参数&rdquo;中可查看添加成功的全局变量cfg_contel,输入电话400-1234-4567,单击&ldquo;确定&rdquo;。</div>
   <divstyle="text-align:center;">    <br/>
   <imgalt="seo公司怎么样"src="/uploads/allimg/200221/1-200221221220645.jpg"title="seo公司怎么样"/>
</div>
  
<div>    &nbsp;</div>
  
<div>    3.在前端代码中调用该全局变量即可:{dede:global.cfg_contel/}</div>
  
<div>    &nbsp;</div>
  
<div>    <strong>二、自定义局部变量</strong></div>
  
<div>    &nbsp;</div>
  
<div>    局部变量一般在网站的某一部分代码,或者某些标签中使用,定义步骤如下:</div>
  
<div>    &nbsp;</div>
  
<div>    1.打开核心&mdash;&mdash;&gt;频道模型&mdash;&mdash;&gt;普通文章(注意其id为1,后面会用到)</div>
   <divstyle="text-align:center;">    <br/>
   <imgalt="seo优化方案"src="/uploads/allimg/200221/1-20022122125bN.jpg"title="seo优化方案"/>
</div>
  
<div>    &nbsp;</div>
  
<div>    2.在弹出的界面中依次点击&ldquo;字段管理&mdash;&mdash;&gt;添加新字段&rdquo;,输入&ldquo;表单提示文字、字段名称&rdquo;,例如:外部链接、arcurlf;勾选&ldquo;使字段可以在列表的底层模板中获得(自定义字段默认仅能在文档模板显示,启用此选项将使列表查询变慢,如无必要请不要选择)&rdquo;选项,使字段可以在文档、列表、首页调用;设置数据类型为&ldquo;单行文本&rdquo;;单击&ldquo;确定&rdquo;。</div>
   <divstyle="text-align:center;">    <br/>
   <imgalt="网站优化推广seo"src="/uploads/allimg/200221/1-20022122132YX.jpg"title="网站优化推广seo"/>
</div>
  
<div>    &nbsp;</div>
  
<div>    3.在&ldquo;字段管理&rdquo;中编辑自定义字段,然后点击&ldquo;确定&rdquo;。</div>
   <divstyle="text-align:center;">    <br/>
   <imgalt="seo首页"src="/uploads/allimg/200221/1-200221221402B9.jpg"title="seo首页"/>
</div>
  
<div>    &nbsp;</div>
  
<div>    4.在任意文档中添加自定义变量,例如,打开&ldquo;网站栏目&mdash;&mdash;&gt;添加文档&rdquo;,输入&ldquo;外部链接&rdquo;:</div>
   <divstyle="text-align:center;">    <br/>
   <imgalt="什么seo网站"src="/uploads/allimg/200221/1-200221221431I6.jpg"title="什么seo网站"/>
</div>
  
<div>    &nbsp;</div>
  
<div>    5.前端调用自定义的局部变量:</div>
  
<div>    &nbsp;</div>
  
<div>    (1)文档或者代码调用:{dede:field.arcurlf/}</div>
  
<div>    &nbsp;</div>
  
<div>    (2)列表、首页标签中调用[field:arcurlf/]时,要声明变量addfields=&#39;arcurlf&#39;,并指定频道名称对应的ID号&ldquo;channelid=&#39;1&#39;&rdquo;,才可以正常调用后台上传的数据</div>
  
<div>    &nbsp;</div>
  
<!--含HTML富文本代码结束-->
<script type="text/javascript">
function getSimpleText(html){
var re1 = new RegExp("<.+?>","g");//匹配html标签的正则表达式,"g"是搜索匹配多个符合的内容
var msg = html.replace(re1,'');//执行替换成空字符
return msg;
}
</script>
</body>
</html>