[AiPie] AI对接CMS发文的采集标题(清洗数据)方法
01.前提概要
之前一直都是在做SEO的有关工作,所以呢也积累了一些经验,这次开发AiPie(一款利用AI生成文章内容并发布到CMS的工具 官网直接百度 AIPIE )也非常荣幸的为百来个客户提供技术和服务,看着大家天天在群里说的一些收录慢,没有方向等问题,这里就和大家分享一下,我自己的 SEO优化心得,我们从浅到深,尽可能的用大白话的形式,将这个清洗数据的方法告诉大家,希望对大家的后续发文工作提供一些方向,我的个人理念更多的是喜欢和大家一起进步和成长,我也是一名站长,能够感同身受一些问题,在您购买AiPie的同时,我更希望能够把一些技巧给到大家,让大家更明白工具的意义和正确使用的方向。大家都知道,采集在AI出来之前一直是网站发文保持活性的首选方案,但是也滋生了很多问题,常见的有以下的问题:
- 百度把你K了,原因是文章过于相似,你可能是采集站
- 作者把你告了,原因是人家文章有版权
- 使劲造文章,反而权重收录不动声色,原因是爬虫直接忽略了,干的活儿跟你毛关系没有
- 作者把你告了,原因是人家文章有版权
当然还有很多类似的案例,就不举例说明了,做SEO的人都知道,排名好的基础就是词非常重要,那么词又是什么呢?在TDK中,可以是K(keywords),也就是关键词,但是这个索引只能定义你的站点属性,并不能让你脱颖而出,人家在搜索中找到你,要想做“出头鸟”,其实你更应该在意你的文章标题,大部分站的词量,收录和权重都是和文章标题息息相关的,这里有兴趣可以去延伸下百度的算法,这里就不展开说了,百度和其他搜索引擎说的天花乱坠,其实多半是从你的页面的title入手的,也就是文章的关键词,相信大家现在见到的CMS大部分都会在发文章的地方单独出了一个关键词和描述的板块,可以针对单文章做优化SEO的工作,可见它的重要性,因此把我标题质量是非常关键的!
02.获得标题
如果大家阅读过AiPie的其他说明文档,相信你也知道有哪些渠道可以来制作标题,这里就介绍几种比较常见的,也会给大家说推荐的,常用的获取方案:
- 通过AI生成,特点是非常综合全面,缺点是涵盖不全,标题太过于客观
- 通过采集人家的标题,特点是速度快,得来全不费功夫,缺点是可能暗藏比较有标志性的标题和时效性标题
- 通过5118等工具抓长尾词或者百度下拉词制作标题,优点是关键词命中率高,缺点是一般人组合效果不理想和生成效果可能牛头不对马嘴,反而可能达不到理想目标
- 通过混合标题,比如双标题等增加关键词的接触面,优点是关键词命中率高,缺点是百度已经明显打击该类作弊手法了
- 等等其他方法
这里面我们最推崇的是通过AI生成标题作为辅助,主要还是采集别人的标题为主,前提是做好数据清洗,因为在上述的方式中,只有采集标题看来能够比较中和
03.如何高效采集标题
这里其实采集方法非常多,什么火车头,蓝天采集器或者付费插件之类的,非常多,但是都是标题文章全部一把抓的情况,我们这里使用AiPie辅助AI生成文案的话,就只需要标题即可,因此我这里推荐八爪鱼采集器,你能够非常灵活的配置,可视化抓取标题,同时上手难度低,非常友好,免费版也够用。
说到高效,讲究效率的事情的话,我们还是不得不说一些大型的站点,比如我的网站 是科技类属性的,大部分应该包含的是科技属性的文章,标题也就随即为开发语言,编程类和科技新闻类挂钩,要说这一类其实也是非常好做的,大型网站非常之多,比如什么CSDN啊,或者博客园,PHP中文网,脚本之家啊都可以,甚至很多小博客也是分享技术类的文章居多,那么这就是我们的采集方向了,资源确定好了,就可以动手了。
04.清洗规则,做个优雅的“小偷”
说是互联网小偷,确实自嘲,不够也不为过,能够为我所用,其实就是合理利用资源,也是一种能力的体现,所以做事情优雅起来,态度就要端正,心急吃不了热豆腐,做站做SEO同样是这个道理,你想要挤进前面的赛道,你要是没有啥过人的技巧就好好听我讲后面的,如何禅定的做标题清洗,一定程度上对你的SEO提升非常之重要。
其实我在群里也日常会分享一些心得,因为怕丢失,所以才又煞费苦心为大家整理成册,写到这里,也是激励大家,做个优雅的互联网“小偷”,偷的是标题,洗的也就是标题。
做好清洗首先要给大家讲明白几个概念问题:
- 首先AiPie目前支持的OpenAI的GPT3/3.5训练数据都比较老旧,虽说目前也是AI界顶尖,但是他对2023年的事情可谓一概不知,所以具有时效性的标题不要,比如说什么"2023年6月7日北京天气预报",这种生成的比说多离谱,至少AI是在胡编乱造,更不要去写什么时政,敏感新闻,突发事件作为标题去吸引流量,还是劝各位不要把自己害了,这种擦边,现在让你过,你也活不久。
- 其次对于具有特殊性的标题,比如“2022年fiime站点运行日志记录”或者是“我的java学习笔记(一)”之类的,这种标题只针对特定站点有效或者是标题含糊不利于生成文章的,建议丢弃,由于AiPie目前还受到token的长度限制,因此一定要注意这种标题,过于宏观,也说不全面的标题,文章不会好到哪里去。如果你不在意文章质量当我没说。
- 最后说一种标题过长的,比如说:“python抓取网站提示错误ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: self signed certificate in certificate chain (_ssl.c:1056)”这个问题确实看起来非常具体,但是实际AI生成的文章中,他不一定知道这个问题,或者生成内容根本不相关,这就需要搜索引擎的概念了,虽然说关键词越多,搜索到的内容越具体,但是对于我们来说不是这样的,标题越长,第一个显示不美观,第二个范围过于具体,被匹配的概率降低,这种情况建议对标题做精简或者做换行,转换成两个标题来使用
- 关键字词的清洗规范,这里给大家整理了一些常见的字词陷阱,不要拔下来就一股脑发 ,有的玩意儿不适合做标题 或者根本效果不太好,一般常见的清洗范围如下:
原创 转载 转发 转 笔记 翻译 周报 年报 日志 月报 新闻词 站点词 时效词 政治词 头条词(非必要不采集) 特殊字符 括号词 章节词 还有一些常见口水话 擦边词等
举个例子,可以看下,反正根据实际情况一定要做好清洗
05.为什么要清洗这些词
我特意把为什么写到最后面,也是给大家留一个思考空间,上述整理了一些典型,包括什么“转载”“译文”等字眼对于蜘蛛来说你这就此地无银三百两,告诉他我不是原创的,我是转载的,你看着办吧!不要不重视这些细节,细节决定人家就排在你前面。
第二个文章标题的质量决定AI文章的质量,标题的具体和完整,决定返回文章的精致与严谨,AI的一切智能并不是AI才是主人,而是我们要学会利用AI来做SEO,主导地位从来也没有变过,所以大家一定不要过于依赖,还是需要有个人思考能力。踢掉那些非关键,过于口水的,毫无意义的,可能虚假的,擦边不安全的,具有不确性的东西噶了,留下的才是精华,这才是提升网站收录的关键。
06.AI文章最近会被K么
大家最近在使用AiPie也在问我这个问题,“百度现在都在处理算法了,低于2000字的文章不收录?”“是不是AI文章现在要降权啊”,针对这个问题可能和某些资本有关,这里不具体指谁,毕竟我不卖网站,所以我只能告诉大家一个现实, 之所以有人会散布消息说K你 是因为某些人的站单价被你们拉低了 之前卖4k 现在2k都可能卖不出去了 哈哈哈,当然你说百度没有针对AI文章的算法么?真的不管么?那也肯定不是,只能说,文章质量上去了,排版美观了,文案科学具体,不具有更多AI特征,那不就是原创么?百度奈你何? 总的来说 百度不会平白无故给你涨权重 你都不发文章了 人家在偷偷发 吃亏的只会是你
07.AiPie支持程度
目前AiPie支持了市面上大部分CMS,可以实现全自动24小时发布
支持大模型
[1]Openai [2]谷歌bard [3]ollama本地大模型
[4]kimi [5]360智脑 [6]讯飞星火大模型
[7]百度ERNIE [8]百川AI [9]商汤大模型
[10]昆仑天工AI [11]零一万物 [12]MiniMaxAI
[13]智谱AI [14]紫东太初maasAI [15]阿里云通义千问
[16]DeepseekAI [17]火山引擎豆包 [18]TigerBotAI
[19]腾讯混元大模型 [20]孟子大模型 [21]元象通用大模型
[22]Jan本地AI大模型 [23]LlamaFamily
支持CMS
[1]WellCMS [2]MySQL数据库 [3]Local本地化 [4]DedeCMS
[5]DiscuzX|DiscuzQ [6]WordPress [7]极致CMS [8]ModStar
[9]Emlog [10]Typecho [11]PHPCMS [12]PbootCMS
[13]Zblog [14]EyouCMS [15]迅睿CMS [16]帝国CMS
[17]Halo [18]Ghost [19]接定制
支持插件
[1]dtitle双标题生成器 [2]Longs长尾词扩写 [3]多平台发布(tasks)
[4]ai2word AI伪原创 [5]translate AI翻译 [6]《Nature》风格润色
[7]小红书语料 [8]titletool标题生成 [9]txt_cms转发插件
[10]百度文本安全AI审核