1,页面的PR值:两个网页都存在同一篇文章,搜索引擎一般会认为PR值高的那个页面为原创
2,是否被第一次收录:如果你的文章发表后,被另一个网站转了去,搜索引擎没有先来爬你的页面,而是先爬行了那个网站的页面,那么很不幸,你很有可能会被认为抄袭的
3,网站的权威性:比如一篇关于人体综合测试仪的很经典的技术文章,虽然你千辛万苦找了很多资料才写出来,如果在短时间内被一个行业网站或产品官方网站给引用了,搜索引擎很有可能把原文出处判定为比较有权威的网站,你会出局
4,域名注册时间和建站时间:注明注册时间和建站时越早,被认为是原文出处的可能性也就越大但是目前来说,这些因素还是不能足够的让搜索引擎完全正确的判定出谁是原创,因为这些因素也不是绝对的搜索引擎都遵循。
在这方面google做的比较好一些,因为它的参考因素要复杂的多,爬行也比较及时;而百度就比较差一些,建站时间似乎是百度比较看重的因素。
有时候抄袭的内容页面PR值比原创内容的页面PR值还要高,这个现象解释起来就更复杂了