美国虚拟主机Hostease

Mediawiki中文技术论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 6176|回复: 0

导入大量名录数据到MediaWiki网站

[复制链接]
发表于 2011-5-21 10:37:45 | 显示全部楼层 |阅读模式
RAKsmart美国服务器
导入前
搭建网站
先架设好网站,安装MediaWiki软件及需要的扩展程序,让网址可以访问,这一步就不详细说了。
只说需要修改的几个基本页面:
MediaWiki页面:MediaWiki:Refresh、MediaWikiagetitle、MediaWikiagetitle-view-mainpage、MediaWiki:Sidebar、MediaWiki:Sitenotice、MediaWiki:Googlesearch
Project页面:Project:免责声明、Project:关于、Project:隐私政策
其它页面:首页、分类、帮助等
数据准备
关键是数据的准备,下面详细来说:
从.mdb的Aceess文件(或者.xls的Execl文件)导出文本文件,注意字段间隔用制表符;
用一个自编的VB程序处理导出的文本文件,将标题提取出来,用<title></title>标记;
用UltraEdit编辑处理后的文本文件,将“|”符号找出来修改为全角的“|”,或者删除乱码的部分;
将文本文件中的制表符替换为模板参数的间隔符号“|”;
将需要转义的“&”、“<”和“>”符号替换为“&amp;”、“&lt;”和“&gt;”;
将在标题中的[]{}改为对应的全角符号,如果是正文中的[]{}可以不修改;
对照以前的xml文件,批量替换文本文件中的内容,并使用UTF-8/Unix格式保存为xml文件。
这样供导入的xml文件就准备好了。如果xml文件超过几百M,操作起来困难,可以分割为多个小文件。
导入中
导入试验
可以先做一个只有几条数据的小xml文件进行测试,放在maintenance目录下,用php importDump.php test.xml命令来导入。
然后用这些少量的数据来调试需要的模板、分类,做好导入大量数据的预先测试准备工作。
注意1:模板最好先考虑充分,尽量少在后面修改,将必要的判断、分类等也加到里面,一般采用一级模板,避免多级调用。
注意2:分类最好先建好页面,这样导入的数据分类就不会是红色的了。
正式导入
如果没有问题再上传、导入正式数据。看正式数据导入的速度,计算出全部导入需要多长时间。例如:1页/秒的话,24小时就可以导入86400页。通常使用nohup php importDump.php data.xml &命令来挂后台导入。
如果中途出错停止,可以查看出错地方和原因,有针对性修改,然后再次上传、继续导入、直到完成。
导入后
再后面就是一些完善工作,分为网站内部和网站外部的。
内部工作
修改首页,让更多的分类及数据呈现在上面;
修改分类调用的模板,带有广告等内部和外部链接;
修改MediaWiki:Sidebar,添加适当的菜单及相关链接。
注意:导入后查看网站中的数据,如果需要修改模板,则还需要在后台运行:php runJobs.php --maxjobs 10000这样的命令来更新链接。
外部工作
修改robots.txt,包含提交sitemap的链接,允许访问“/分类”开头的页面,禁止不需要访问的页面;
修改生成sitemap的.sh文件,定期自动生成网站地图;
www.google.com/webmastertools中添加该网站;
www.google.com/adsense中添加URL渠道来跟踪收入;
www.google.com/analytics中添加配置来跟踪流量。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

美国主机评测网站

Archiver|手机版|小黑屋|Mediawiki中文技术论坛

GMT+8, 2024-11-24 20:32 , Processed in 0.035363 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2024, Tencent Cloud.

快速回复 返回顶部 返回列表