百度开出博客搬家服务,我一点不觉得奇怪,倒是它提供的无需密码验证的“搬家”让我觉得很新奇。
在我写了blogChina搬家到WordPress攻略不久,就收到百度工程师的邮件讨论博客搬家的话题。现在看来百度提供的对MSN Space和新浪博客搬家手段可能是完全基于HTML的extract和parsing,而不是blogger API(写入到百度自己的博客系统可以用blogger API或者直接写DB),这就能解释它不仅支持搬自己的家,连别人的家一样搬。来自百度空间的说明基本能证实这一猜测:
“ 在搬家过程中有可能会有部分文章、评论丢失、文章格式发生变化。如有少部分文章丢失、格式变化,您可手工将其搬入空间内进行调整。”
百度的crawler这么强,到网上搬点东西实在易如反掌。我猜百度内部应该有一个generic的Web crawler和多份customized crawlers,各个instance独立运行。博客搬家crawler跑到MSN,Sina上下载页面,抽取页面,扔掉所有外部链接,用广度优先的方法递归爬行,然后导数据。搜索引擎就是这样用别人的数据给自己赚钱,当然前提是提供了内容增值(数据可访问性),不好说这样以披着搜索引擎的外衣拷贝博客文章到自家的做法外人有没有想法,不过过去的众多经验表明粘着点原罪的第一枪往往会成为成功的催化剂。
2 replies on “百度博客搬家服务”
百度搬家只要求用户提供一个把blog url, 并且需设置文章为public, 由此可见它的crawler并没有爬到用户的管理端,其实进入管理端可能效率更高,因为界面比较固定,页面相对统一,不像普通的浏览方式,用户一旦改了显示的模板,crawler可能就难于应付…..
yes, make sense