概要
検索最適化設定では、「robots.txtの編集」「llms.txtの編集」「sitemap.xmlから除外するページ」を設定できます。
robots.txtの編集
robots.txt(ロボッツテキスト)とは、ウェブサイトのルートディレクトリに設置されるテキストファイルで、検索エンジンのクローラー(ボット)に対し、「どのページをクロール(巡回)してよくて、どのページをクロールしてほしくないか」を指示する(制御する)ためのファイルです。
これにより、サイトの不要な部分のインデックスを防ぎ、重要なページのクロールを優先させたり、サーバーへの負荷を軽減したりする目的で利用されます。
設置方法
User-agent(対象ボット)、Disallow(禁止)、Allow(許可)、Sitemap(サイトマップの場所)などのディレクティブ(命令文)で記述します。
※設置方法がわからない場合は「robots.txtの入れ方がわからない」を参照してください。
注意点
robots.txt の指示はあくまで「お願い」であり、悪意のあるボットには無効です。また、クロールを禁止しても、他の方法(noindexタグなど)を使わない限りインデックスされる可能性があります。
llms.txtの編集
llms.txt(エルエルエムズ・ドット・テキスト)とは、Webサイトの運営者が、自社のコンテンツを大規模言語モデル(LLM:生成AI)に効率的かつ適切に理解・利用してもらうために設置する、構造化されたテキストファイルです。
従来のrobots.txt(クローラーのアクセス制御)とは異なり、AIに「この情報を参照してほしい」「この情報は学習に使わないでほしい」といった指示や要約を提供し、AIによる情報収集の精度向上とサイトの負荷軽減を目指す、AI時代におけるサイトとAIの間の「橋渡し」や「取扱説明書」のような役割を持ちます。
設置方法
llms.txtは今のところ明確な決まりはありませんが、AIが理解しやすいようにするためにMarkdown形式で学習・除外したいページなどを明確に書くことが必要です。
複雑な装飾や余計な表現は避け、AIが理解しやすいように記述してください。
必要な記述項目
ここでは最低限必要な記述項目を記載します。更に細かく記述したい場合は専門サイトなどを参考にllms.txtに入力をしてください。
プロジェクト名(サイト名)
一番最初に記述する内容です。見出しとして認識させるため、「#」の後にプロジェクト名を記述します。
プロジェクトの要約(概要)
プロジェクト(サイト)の要約(概要)を引用として認識させるため、「>」の後に要約(概要)を記述します。
補足・詳細情報
補足・詳細情報は小見出しとして認識させるため、「##」や「###」の後に補足・詳細情報の見出しを記述します。
「##」や「###」は見出しを指し、「##」であれば見出し2(h2)、「###」であれば見出し3(h3)となります。
見出し以降の記述には箇条書きとなる「-」の後に補足・詳細情報の説明やリンクなどを記述します。
注意点
現在、llms.txtはまだ標準化されておらず、全てのAIが対応しているわけではありません
ブラウザからの確認では文字化けして表示されることがあります。内容はサイト管理画面にてお願いします。
sitemap.xmlから除外するページ
sitemap.xmlから除外するページは、そのページパスを登録することで設定できます。
入力されたページパスは部分一致で判定されます。意図しないページまで除外されないよう、ドメイン以下のページパスを正確に入力してください。
例:ドメイン/●●●/〇〇〇/▲▲▲
- ドメイン/●●●/〇〇〇/▲▲▲のうち、「●●●」を除外したい場合、入力欄に「●●●」と入力します。
- ドメイン/●●●/〇〇〇/▲▲▲のうち、「〇〇〇」を除外したい場合、「●●●/〇〇〇」と入力します。
「〇〇〇」でも除外されますが、他のURLに含まれる 〇〇〇 も除外されてしまう可能性があります。
また、入力するのはページパスのみです。URL末尾の「 .html」 などは含めないでください。
関連ページ
基本設定の注意事項|機能ガイド|LENSAhubサポート
robots.txtの入れ方がわからない|よくあるご質問|LENSAhubサポート
お知らせの記事が除外設定してもサイトマップから消えない|よくあるご質問|LENSAhubサポート
検索除外設定|動画マニュアル|機能ガイド|LENSAhubサポート