王尘宇

2026年AI绘画工具怎么选？Midjourney V7、SD3、即梦三款实测

Tue, 23 Jun 2026 10:08:56 +0800

上个月帮一个做电商的朋友选AI绘画工具，他把Midjourney、Stable Diffusion 3、字节的即梦都试了一遍，最后选了SD3。理由很简单——他需要批量生成白底产品图，SD3的API接入成本最低。你的需求不一样，选择可能完全相反。所以这篇文章不告诉你要用哪个，而是把三款工具各自的优缺点摊开，你自己看着选。

Midjourney V7：审美天花板

Midjourney在2025年底发了V7版本，最大的改进是角色一致性——以前你让Midjourney画同一个人，换个场景脸就变了，V7通过Style Reference和Character Reference两张图联动，基本解决了这个问题。对做IP形象、漫画、游戏原画的人来说，这是刚需。

出图质量还是稳坐第一梯队。光影、材质、细节层次感，V7比V6.1又提升了一档。尤其是人像和场景类，基本看不出AI痕迹——上次我给一个做独立游戏的朋友看了张V7出的角色立绘，他第一反应是"这是哪个画师画的？"

但Midjourney有两个致命问题。第一是贵——Pro版每月60美金，Basic版30美金但有月度生成次数限制，重度用户根本不够用。第二是控制力弱——它不太听你的精确指令，你让它画"三个人站在一条两边种满梧桐树的街道上"，它可能给你画出四个人或者没有梧桐树。这种不可控性对商业项目来说很要命。

另外Midjourney必须通过Discord使用，国内用户要挂梯子，网络不稳定的时候体验极差。

Stable Diffusion 3：自由度高但得有技术

SD3走的是另一个极端——开源、本地部署、完全可控。你可以自己装ControlNet控制人物姿势、用LoRA训练特定的画风或角色、甚至修改底层代码。

那个做电商的朋友最后选SD3，核心原因是成本：他用一台RTX 4060显卡的电脑本地跑SD3，每天生成200多张产品图，电费加显卡折旧一个月折算下来不到200块。同样的量用Midjourney一个月至少要60美金（约430元），差了一倍多。

ControlNet是他最喜欢的特性。他需要生成的产品图必须严格保持同一个瓶身角度（45度侧俯拍），这在Midjourney里几乎做不到——每次生成角度都可能不一样。但SD3加个Canny边缘检测ControlNet，角度就锁死了。

SD3的缺点也很明显：上手门槛高。你得会装Python、CUDA、下载大模型文件（动辄几个G）、调参数。官方自带的SD3基础模型出图质量也不如Midjourney，得自己找社区训练的高质量Checkpoint和LoRA叠加使用。说白了，SD3是一个框架，最后能出什么样的图，看你会不会调。

即梦（字节跳动）：中文生态优势

即梦是字节跳动出的AI创作平台，包含图片生成和视频生成。对国内用户来说有天然优势——不需要梯子，注册就能用，中文Prompt理解是三家最好的。

我用同样的中文提示词在三家测试"一位中国老人在西安城墙上打太极，夕阳，胶片质感"，即梦出的图最贴切——城墙砖纹路、太极手势、光影方向都对了。Midjourney把城墙画得像欧洲城堡，SD3的老人手势像在练广播体操。

价格方面，即梦每天有免费额度，轻度使用基本不花钱。付费也不贵，月卡大概几十块。对偶尔做做社交媒体配图、海报、PPT插图的需求来说完全够了。

但即梦的短板也很明显——出图质量和Midjourney有差距，尤其是复杂光影和材质细节。而且字节的审核策略比较严，涉及到敏感场景的Prompt可能会被拦截。想做写实类、艺术类的高端图像，即梦目前还撑不住。

怎么选：一句话总结

如果你追求画面质量、不介意花钱、主要做艺术创作——选Midjourney。

如果你需要批量生成、对画面控制有精确要求、有技术基础——选Stable Diffusion 3。

如果你在国内、偶尔做图、预算有限、主要是社交媒体配图——选即梦。

还有一个省钱玩法：用即梦出初稿，拿到画面构图和配色方向，再手动调整或者导入SD3做精修。即梦免费额度够你试几十种风格，确定方向后再投入时间精修，比直接花钱在Midjourney里碰运气效率高得多。

最后提醒一句：不管是哪家的AI绘画工具，生成的图片用于商业用途前，一定要确认版权条款。各家规则不一样，有的明确写了商用OK但需要标注AI生成，有的对商用有额外限制。别用了人家的工具还在版权上踩雷。

多模态AI到底能做什么？从GPT-4o看懂一张发票说起

Tue, 23 Jun 2026 10:08:49 +0800

上周有个做财务的朋友给我发了张餐厅小票，问能不能自动提取金额和日期。我用GPT-4o试了一下，三秒出结果，金额、税号、开票日期全对。她说"这不就是OCR吗？"我说不完全是——OCR只能识别文字，多模态AI能理解这张图是什么场景、金额合不合理、甚至能判断这个价格是不是偏高了。

这篇文章就用几个真实场景，把多模态AI到底是什么、现在能做到什么程度跟你聊清楚。

什么叫"多模态"

传统的AI模型是"单模态"的。最早的GPT（GPT-2、GPT-3）只能处理文字——你给它一段话，它回你一段话，中间没有任何其他信息形式。后来有了能生成图片的DALL-E、能理解图片的CLIP，但这些模型各管各的，文字模型不懂图片，图片模型不懂文字。

"多模态"的意思是，同一个模型能理解多种信息形式——你把文字、图片、音频、视频混在一起扔给它，它能全部理解并给出回答。就像人看一篇文章，不仅看字，还看图、看排版、看配色，综合判断整篇内容在说什么。

2024年是个分水岭。OpenAI在5月发布了GPT-4o（那个o是omni，全能的意思），谷歌推出了Gemini 1.5 Flash，国内的通义千问VL和智谱GLM-4V也陆续上线。到2025年底，多模态已经从"实验室Demo"变成了可以日常用的工具。

现在多模态AI能做什么

说几个我实际用过的场景：

第一，读图和读表。上传一张Excel截图或者手写的会议纪要照片，模型能直接提取数据、做总结。我试过拿一张模糊的报销单照片扔给Gemini 1.5 Pro，它连手写的备注都认出来了。这比传统OCR强的地方是它能理解上下文——比如它知道表格里的"合计"应该等于上面各项加起来，如果不对它会提醒你。

第二，分析图表和报告。把一份PDF的财务报告截图发给Claude（Claude 3.5 Sonnet支持图像输入），它能分析出收入增长趋势、哪个产品线在拖后腿、跟去年同期比有什么变化。以前需要财务分析师做的事，现在AI可以先给你一个初筛。

第三，视频理解。Gemini 1.5 Pro支持上传最长1小时的视频，它能总结视频讲了什么、找到某个时间点说的某句话。我传过一个40分钟的线上培训录像，它准确找到了"Q&A环节"是从第32分钟开始的。这个功能对会议记录、培训内容管理非常实用。

主流多模态模型怎么选

目前在用的多模态模型主要有这几个：

GPT-4o：综合能力最强，图片理解很准，支持实时语音对话，但价格偏贵。适合需要高精度图像分析的场景。

Gemini 1.5 Pro/Flash：视频处理是独家优势（支持超长上下文），免费额度大方，但中文OCR有时不如国内模型准。

Claude 3.5 Sonnet：图表和文档分析能力强，逻辑推理好，但只支持图片输入，不支持视频和音频。

通义千问VL：中文OCR和中文场景理解最好，价格便宜，适合国内企业用。

DeepSeek-V2/V3：主打性价比，文本能力强，多模态还在追，图片理解够用但没到顶尖。

现在还做不好的地方

别被宣传视频骗了。多模态AI现在的局限也不少：

一是视觉幻觉——它会"看到"图片里不存在的东西。我传过一张产品照片，它说"背景里有书架"，实际上照片是在白墙前拍的。二是对细节的准确性——小字、密集表格、复杂图表容易解析错。三是对动态场景——比如体育比赛的实时视频，理解速度和准确性都还跟不上专业需求。

说白了，多模态AI目前最擅长的还是"静态内容理解"——图片、文档、预录视频。实时交互和精确分析还有一段路要走。

对普通用户的建议

如果你只是日常用AI，不需要特意去追求多模态。ChatGPT Plus或者Kimi的付费版就够用了，它们都支持上传图片。如果你经常处理文档、表格、PDF，可以考虑Claude或者通义千问VL。视频相关需求目前只能用Gemini。

有一点要注意：上传敏感图片（身份证、合同、内部数据）到云端AI，理论上服务商能看到。涉及隐私的资料建议先在本地脱敏处理，或者用本地部署的开源模型（比如miniCPM-V或者Qwen2-VL），虽然效果比不上云端大模型，但数据安全有保障。

2026年GEO结构化数据优化实操：3个月让AI搜索引用涨了4倍

Tue, 23 Jun 2026 10:08:44 +0800

去年底给一个做B2B的客户做了个实验：上了全套结构化数据之后，AI搜索（豆包、秘塔、Kimi）里的品牌引用量从每月20来次涨到了90多次，翻了4倍。这篇文章就把当时怎么做的、踩了什么坑全写出来。

先搞清楚：AI搜索要什么

传统的百度SEO，你只要排名上去就赢了。但AI搜索不一样——它不排名，它"引用"。豆包、Kimi、元宝这些AI搜索在回答问题时，会从你的网页里摘一段原话，附上来源链接。问题在于：AI怎么决定摘哪一段？

答案就是结构化数据。你告诉AI"这段是产品介绍""那段是FAQ""这段是价格信息"，AI就更容易精准引用你希望被引用的内容。我们实测下来，页面不加结构化数据，AI引用的准确率大概30%——经常引到边栏、页脚或者完全不相关的一句话。加了之后准确率提到75%以上。

哪些Schema类型最管用

我们主要用了这三种：

FAQPage——这个是性价比最高的。把你页面上常见的客户问题做成FAQ结构化标记，AI搜索特别喜欢引用FAQ。我们给一个产品页加了8条FAQ的schema，两周后在豆包的引用量从3条涨到12条。

Article / BlogPosting——文章的主体内容一定要用这个标记。author、datePublished、headline这几个字段填全，别偷懒。秘塔搜索特别吃author字段，有author标记的文章引用优先级明显更高。

Product——如果你是电商或有产品页，price、availability、review这几个字段对AI引用帮助巨大。有一次我在Kimi搜"2026年性价比最高的企业CRM"，引用的全是带了Product schema的页面，不带的一个都没有。

其他的像BreadcrumbList（面包屑）、Organization（企业信息）也有用，但回报没有上面三个高，优先级可以往后排。

一个容易犯的错：Schema写了但验证不过

这是我们踩过最大的坑。Schema看起来写了，代码里也有，但Google的Rich Results Test一跑就报错。原因是：

很多网站的Schema是插件（比如Yoast SEO或者ZB PHP的SEO插件）自动生成的，生成出来的字段经常不完整。比如Article类型缺少publisher字段、FAQPage里少了acceptedAnswer里的text、Product里的price写成字符串而不是数字。

我们的做法：每次上线前，用Google Rich Results Test跑一遍，发现报错就在源码里手动补字段。补完之后再用Schema Markup Validator确认一遍。前后大概花了两个周末，但做完之后就稳了。

具体怎么实施

如果你是WordPress：Rank Math SEO或者Schema Pro都能手动定制Schema。别用默认配置，自己去后台把FAQ、Article的字段补齐。如果是ZB PHP：模板里手动注入JSON-LD，在header.php里加一段script type="application/ld+json"，比插件可靠得多。

有两个细节：第一，每条Schema的@id必须唯一，别跟其他页面的@id重复，不然AI搜索可能会合并两个页面的信息，引用就乱了。第二，结构化数据里引用的URL一定要跟你页面的canonical URL一致，不一致的话AI搜索可能忽略你的标记。

效果验证：怎么知道自己做对了

别光看Google Search Console，那个数据滞后两三周。我们是用两个方法快速验证：

一是在豆包里搜你目标关键词加"引号"，看返回结果里有没有你的网页。搜"结构化数据对AI搜索的影响 site:你的域名"就能看出AI有没有采到你的内容。二是在秘塔搜索里搜你的品牌名，看AI搜索在介绍你的时候用了哪些来源——如果引的是你的官网而不是第三方评测站，说明结构化数据在起作用。

做了3个月，最大的感受是：GEO不是玄学，是工程活。Schema是基建，内容质量是上层，两个都做好了，AI搜索给你的免费曝光比投SEM划算得多。

有两点现在还没完全弄清楚：一是各AI搜索引擎对Schema的支持程度不完全一样，豆包对FAQPage很敏感，但DeepSeek好像更偏好content字段的长文本；二是不同行业的引用规律差别很大，我们的结论可能对B2B更适用，消费品或本地服务可能要另外测。这块后面有新的实验数据再更新。

百度AI搜索上线后，网站SEO该怎么做

Tue, 23 Jun 2026 08:08:57 +0800

2026年4月百度全面接入文心一言4.5之后，搜索结果页顶部出现了AI生成的答案摘要。这件事对做百度SEO的人来说，影响比Google的AI Overviews要大——因为百度在国内搜索市场的份额虽然降了，但绝对值还在。百度每天处理超过20亿次搜索请求。

先说明白百度AI搜索的展示机制。用户搜一个问题类query（比如"WordPress怎么搬家"），百度AI会在搜索结果顶部生成一个答案摘要，大概200-400字，带几个要点和操作步骤。摘要下面才是传统的10条搜索结果。如果用户从AI摘要里获得了足够信息，就不会往下翻。意味着：以前排名第一能拿到大约30%的点击，现在可能掉到15%-20%。

那怎么办？核心思路是：让你的内容被AI引用。

百度AI在生成摘要的时候会标注来源（类似"以上信息综合自xxx.com、yyy.com"）。被标注为来源的网站，除了AI摘要里的曝光，还能获得额外的"来源链接"点击。我看了一些被百度AI引用过的站的数据：虽然自然排名点击下降了，但"来源链接"带来的点击把总量补回来了，有的站总点击反而涨了。

什么样的内容容易被百度AI引用？几个特征。

结构化要好。文章里用H2/H3小标题把步骤拆清楚，关键信息用列表、表格呈现。百度AI提取信息的时候优先从"结构清晰"的内容里抓取。一篇文章如果是一大坨文字没有分段，AI几乎不会引用。

开头就给出答案。百度AI的摘要通常是200-400字，它不会从你文章的第五段去提取。如果你的文章前300字是铺垫和引入，核心答案被埋在后面，AI大概率略过你取别人的内容。写法上参考"倒金字塔"结构：第一段直接给答案，后面展开讲原因和细节。

权威信号。百度对AI引用的内容会做权威性打分。如果你写的是健康、金融、法律类的YMYL内容，没有专业资质或引用来源，基本不会被AI用。即使你的内容是对的，百度也不敢引用"一个没有认证的个人博客"的医疗建议。解决方法是：在文章里引用官方数据、标注参考文献、作者署名带上专业背景。

另外，百度自家产品的权重在AI引用中明显偏高。百度百科、百度经验、百家号的内容被AI引用的概率远高于外部网站。如果你还没有百度系的内容布局，建议至少维护一个百家号，把核心内容在百家号上同步发布。不是替代独立站，而是多一个被百度AI引用的入口。

百度资源平台（原百度站长平台）也更新了针对AI搜索的功能。2026年新增了一个"AI引用监控"面板，可以看到你的网站哪些页面被百度AI引用过、作为了多少次查询的来源。这个数据能帮你判断什么样的内容方向更容易被引用。

最后说一个心态问题。很多人觉得AI搜索是"抢流量"的，很焦虑。换个角度看：以前你的内容只能在搜索结果页里靠排名抢点击，现在如果内容质量够好，可以直接被AI引用为"权威来源"，曝光位置从第10条蓝链变成了顶部摘要里的来源标注。这个机会以前是没有的。

2026年手机上值得装的AI应用（实测好用）

Tue, 23 Jun 2026 08:08:38 +0800

手机上装过不下50个AI应用，删了大部分。留下这几个是真的日常在用的。

豆包（字节跳动，免费）——目前国内用起来最顺手的AI助手。语音交互做得比竞品好，支持连续对话不用每次都点按钮。日常工作场景：开车的时候口述让豆包帮我整理会议纪要、写邮件草稿、查信息。2026年新增了"上下文记忆"功能，可以记住前几轮对话的内容，做复杂任务的时候不用每次都重新描述背景。缺点是网络不稳定的时候响应慢（服务器在国内，但高峰期偶有延迟）。

通义千问App（阿里，免费）——处理长文档很强。把PDF/Word丢进去，自动总结、提取要点、生成思维导图。看几十页的行业报告省时间利器。2026年支持了直接解析扫描件（以前只能读电子文档），合同和发票拍照就能提取关键信息。我经常用"图片转Excel"功能——拍一张表格照片，自动生成可编辑的Excel文件。

Perplexity（海外，免费版够用）——搜东西比Google好用。你问一个问题，它不只给答案，还列出信息来源。2026年Pro版支持了更精准的中文搜索（以前中文搜索结果明显弱于英文，现在差距缩小了很多）。对于需要查事实、做产品调研的场景，比在百度/Google里翻几个网页高效。缺点是需要科学上网。

Midjourney（付费，$10/月起）——手机上只能用网页版，没有原生App。但2026年Midjourney的网页版在手机上适配得不错了，竖屏操作基本流畅。生图质量仍然是天花板，尤其是V7模型对材质和光影的处理。手机上主要是"灵感搜集"用途——想到一个概念，用手机快速生成几版草图，回电脑上再精调。

讯飞听见（科大讯飞，免费版每天一小时）——录音转文字。开会、采访、听课，打开录音，实时出文字，支持中英文混合识别。2026年加了一个"AI总结"功能：录完一小时的内容，自动生成三段式摘要（核心观点、要点列表、待办事项）。准确率比2024年提升了不少，口音重也能识别个八九成。

稿定AI（稿定设计，免费版有水印）——手机端做图工具。不是传统的那种"选模板改文字"，而是输入描述自动生成设计稿。比如"小红书封面，主题是2026年夏季防晒霜推荐，清新风格，粉色系"，20秒出四版方案。生成的图基本能直接用，微调一下文字就行。省了在电脑上开Photoshop或Canva的时间。

说一个选AI应用的经验：别被"AI"标签骗了。很多App加了一个AI聊天窗口就叫"AI应用"，实际体验不如直接用豆包或通义千问。真正好用的AI应用，是"AI藏在后面，你感觉不到它在跑，但效率确实提升了"。以上这几个都属于这种。

2026年抖音运营变了：算法调整后怎么搞流量

Tue, 23 Jun 2026 08:08:21 +0800

2026年抖音做了几轮算法调整，核心变化：从"兴趣推荐"转向"意图识别"。说人话就是，以前抖音猜你喜欢什么就推什么，现在它越来越重视你"搜过什么"、"主动表达过什么需求"。

这个变化带来的直接影响：搜索流量权重在涨。2026年初，抖音搜索日均超过6亿次，搜索结果页的视频播放时长占比从2024年的8%涨到了现在的21%。对创作者来说，做好抖音SEO不再是个锦上添花的事，是基础操作。

那2026年的抖音SEO怎么做？跟传统的百度SEO不太一样。

标题：前10个字写清楚"讲什么的"。很多创作者喜欢用"你绝对想不到"、"这个方法也太绝了"这种悬念标题。悬念标题适合推荐流量，但对搜索流量基本没用——用户搜的是"怎么去除视频水印"，你的标题是"这个方法也太绝了"，算法根本匹配不上。折中做法：标题前半段说清楚内容（前10-15字包含核心关键词），后半段可以加悬念。

话题标签：从加一堆改成精选2-3个。2026年抖音的标签权重逻辑变了：以前标签越多越好（能蹭更多流量池），现在标签和视频内容的匹配度成了排名因素。标签不匹配的视频会被降权。做法：选一个最精确的小标签（比如"#手机拍摄教程"而不是"#拍摄"），加一个相关的中等标签，最多再配一个热门大标签。三个够了。

评论区运营：比大多数人以为的重要。抖音2026年的排序算法里，评论区的"有效互动"（不是"666"和"来了"这种水评论，而是有信息量的回复）是排名信号之一。具体做法：在视频结尾提出问题（"你们用的是什么剪辑软件，评论区告诉我"），回复有价值的评论（回复时候可以展开讲，回复内容本身也算内容增量），引导讨论。评论区的关键词密度也参与搜索排名。

还有一个变化：2026年抖音对"完播率"的定义改了。以前完播率=完整看完人数/播放量，现在新增了"有效完播"——用户完整看完并且之后没有任何"滑动跳过下一个视频"的动作，说明这个视频真的"留住了用户"。对创作者的影响是：不能靠前3秒抓眼球骗完播了，得全程有料。宁愿做60秒干货视频，也不要做15秒的高开低走。

蓝V认证方面：2026年企业号（蓝V）的流量扶持政策又变了。以前蓝V有基础的流量加成，现在加成取消了，改为"搜索优先展示"——同一个关键词下，蓝V账号的视频在搜索结果页排名更高。做本地生活和知识付费的尤其值得考虑认证。

总结：2026年抖音的流量增长点在搜索，不在推荐。推荐流量池已经卷到天上去了，搜索结果页的竞争相对好很多。花30%的时间做搜索优化，回报可能比花100%时间做内容更高。

2026年AI编程工具横评：Cursor、Copilot、Windsurf谁好用

Tue, 23 Jun 2026 08:08:05 +0800

2026年AI编程工具卷得很厉害，市面上能打的至少五六款。我主要写Python和TypeScript，下面是我用过超过三个月的三款工具的实测对比。

GitHub Copilot（$10/月）——微软出品，资格最老。2026版的Copilot已经不是2023年那个只会补全单行代码的版本了。现在支持多文件编辑、终端命令生成、PR描述自动写。核心优势是和其他GitHub产品集成：在GitHub上创建Issue，Copilot能直接读Issue内容然后生成代码；PR Review的时候自动给出代码建议。劣势是编辑器的"代理模式"还不够成熟——让它"把这个模块重构为异步版本"，经常改不全，丢三落四。适合GitHub生态重度用户。

Cursor（$20/月）——目前编程体验最好的，没有之一。Cursor的核心卖点是"对话式编程"：选中一段代码，Ctrl+K输入自然语言指令，直接修改。支持整个代码库级别的上下文理解——不是只看当前文件，而是索引整个项目。这个功能在重构的时候特别有用："把所有调用userService.fetchUser的地方改成用新的apiClient.fetchUser"，Cursor能精准找到所有引用并替换。2026年Cursor新增了Bug Finder功能，自动扫描代码中的潜在bug并给出修复建议，对TypeScript项目的类型错误检测尤其准。缺点是价格比Copilot贵一倍，而且内存占用大，大项目开着Cursor风扇呼呼转。

Windsurf（$15/月）——Codeium出品，后起之秀。Windsurf的差异化优势是"全自动模式"（Cascade）：给它一个任务描述，它自己规划步骤、写代码、跑测试、修bug，全部自动完成。不像Cursor需要你每一步确认。适合做"扔一个需求出去、过十分钟回来验收"的场景。不过全自动模式有时候会跑偏——曾经让它写一个API集成，它花了20分钟、改了15个文件、跑了8次测试，最后给我的结果跟我想要的完全是两个方向。所以全自动模式更适合实现明确的功能需求，不适合开放性的探索任务。

选哪个？我的建议：日常主力用Cursor，写代码的时候体验最好。Copilot作为补充——Review PR和写文档的时候开。Windsurf用来处理那种"很清晰但很繁琐"的任务（比如批量替换API、写单元测试、迁移数据库schema），这些任务是全自动模式的强项。

2026年还有一个趋势值得关注：这三家都在推"AI原生IDE"的概念——不是IDE里加个AI插件，而是整个IDE的交互模式围绕AI重新设计。Cursor走在这个方向最前面，Windsurf紧随其后。传统的"你写代码、AI补全"的模式正在变成"你描述需求、AI写代码、你审核修改"。对程序员来说，写代码的时间会越来越少，理解和审核代码的时间会越来越多。

RAG是什么？2026年企业应用的热门技术讲明白

Tue, 23 Jun 2026 08:07:50 +0800

RAG——检索增强生成（Retrieval-Augmented Generation）。2026年可以说是RAG大规模落地的一年，几乎每个做企业AI的公司都在用。但很多人还不清楚这东西到底是干嘛的，跟普通的AI聊天有什么区别。

说人话：你问ChatGPT一个问题，它是靠训练时记住的知识来回答的。训练数据有截止日期，而且不一定准确。RAG的做法是：提问的时候，先从你自己的知识库（文档、数据库、手册）里检索出相关内容，然后把这些内容连同你的问题一起喂给AI，让AI基于你给的资料来回答。

举个例子。你是一家制造企业的IT主管，你想让员工能用AI查到公司内部的设备操作手册和故障排除流程。直接把手册丢给AI训练是不现实的——太贵、太慢、而且手册每季度更新一次。用RAG的做法：把手册切成小块存到向量数据库里，员工提问的时候，系统先去数据库里搜最相关的几段手册内容，然后把"问题+搜出来的手册内容"一起发给AI。AI回答的时候会引用手册里的具体页码。答案准、有出处、更新手册后新内容即时生效。

2026年RAG技术有三个明显的变化。

第一，检索质量大幅提升。早期的RAG就是把文档切块然后做向量相似度搜索，效果一般——经常搜出看起来相关但实际没用的一段话。现在主流用的是混合检索：向量搜索+关键词搜索（BM25算法），再加上重排序（reranker模型），准确率高了很多。2026年初Cohere和BGE推出的reranker模型开源了，中文检索效果比2024年好了不止一个档次。

第二，Graph RAG开始流行。传统RAG的局限是只能检索"相似段落"，但很多知识是结构化的——比如"这个零件用在哪个机型上"、"这个报错代码的上游是什么原因导致的"。Graph RAG把知识组织成图结构（实体+关系），检索的时候不只搜相似文本，还能沿着图的关系做多跳推理。微软2024年开源的GraphRAG项目，到2026年已经在很多企业落地了。

第三，Agentic RAG——让AI自己决定什么时候需要检索。传统RAG是每次用户提问都检索一次，不管问题需不需要。Agentic RAG的做法是：AI先判断"这个问题我能直接回答吗"，不能的话，自己决定去检索什么、检索几次、要不要二次检索。像一个会查资料的助手，而不是每次都翻书的机器人。LangChain和LlamaIndex在2026年都把Agentic RAG作为核心功能来推。

落地成本也在降。2025年搭一套RAG系统还要懂向量数据库、Embedding模型、LLM API调优，门槛不低。到2026年，像Dify、FastGPT这类开源平台已经把整套链路打包好了，上传文档→自动切块→自动向量化→对话测试，半小时就能跑起来。如果你公司有内部知识库需要让员工用AI查询，现在是最适合开始试验的时间点。

网站被黑了怎么恢复？2026年实战排查步骤

Tue, 23 Jun 2026 08:07:31 +0800

上个月帮一个朋友的WordPress站点处理了一次挂马事件。他的站被植入了恶意代码，Google Search Console里报了几十个"已收录的恶意软件页面"。花了一天半恢复，把流程写下来。

第一步：立即下线。不是关服务器，而是返回503状态码，同时给一个维护页面。这样做的好处是搜索引擎不会把恶意页面标记为"正常内容"，避免降权。如果有Cloudflare，直接开"Under Attack"模式，能挡掉大部分攻击流量。

第二步：查入侵入口。90%的WordPress被黑是通过过期的插件或主题。SSH进服务器，先看最近修改的文件：find /网站目录 -type f -mtime -7（查最近7天修改的文件）。我那次发现/wp-content/plugins/一个废弃的contact-form插件/目录下多了三个PHP文件，文件名是乱码，内容是eval(base64_decode(一大段))——典型的webshell。

第三步：全量扫描。不要手动翻文件，扫描工具比自己肉眼准。Linux下用ClamAV（免费）：clamscan -r /网站目录输出所有可疑文件。PHP专用用Maldet（Linux Malware Detect）：maldet -a /网站目录。那次扫出来12个恶意文件，分散在uploads、plugins、甚至wp-includes里。

第四步：看数据库。webshell不只是文件层面的，有些攻击会在数据库里插入恶意代码——尤其是wp_options表里的active_plugins字段、或者文章内容里嵌入的script标签。用phpMyAdmin或命令行查：SELECT * FROM wp_posts WHERE post_content LIKE %eval% OR post_content LIKE %base64%。那次在数据库里发现了三条被注入的