
Google自身が述べているように、世界中の情報を整理し、すべての人がアクセスできるようにすることに取り組んでいます。もちろん、Googleはこの長期的な取り組みの中で、スプレッドシート、プレゼンテーション、PDFなど、HTMLではないファイルに遭遇します。そのような場合、適切なコンテンツを見つけて検索結果用にインデックス化することに取り組みます。当然ながら、これらのファイル形式はインデックス化が困難な場合があります。どのようなガイドラインに従うべきでしょうか?Googleにインデックス化させたくない場合はどうすればよいのでしょうか?
Googleは、PDFインデックス化に関して最もよく寄せられる質問をまとめており、以下が彼らの回答です:
Q. GoogleはPDFファイルをインデックス化できますか?
A: Googleは一般的に、PDFファイルからあらゆる言語で書かれたテキストコンテンツをインデックス化できます。ただし、パスワード保護や暗号化されていない必要があります。GoogleはOCRアルゴリズムを使用して、テキストが埋め込まれた画像を処理できます。PDF文書から標準的なテキスト文書にコピーできるテキストは、Googleがインデックス化できるはずです。
Q. PDF文書内のリンクはどのように扱われますか?
A: PDFファイル内のリンクはPageRankやその他のインデックス化シグナルを渡すことができ、Googleはファイルをクロールした後にそれらをたどる可能性があります。現在、PDFファイル内にnofollowハイパーリンクを埋め込むことはできません。
Q. PDFファイルが検索結果に表示されないようにするにはどうすればよいですか?
A: PDF文書が検索結果に表示されないようにするのは簡単です。これを行うには、ファイルを提供するHTTPヘッダーにX-Robots Tag: noindexを追加します。PDF文書が既にインデックス化されている場合、X-Robots-Tagをnoindexディレクティブと一緒に使用すると、時間の経過とともに消失します。より高速な削除には、Google Webmaster ToolsのURL削除ツールも使用できます。
Q. PDFファイルは検索結果で高くランク付けされることがありますか?
A: もちろんです!他のウェブサイトと同様にランク付けされます。Google検索エンジンによって返されるすべてのPDF文書は、そのコンテンツと、他のページにどのように埋め込まれ、リンクされているかによって高くランク付けされます。
Q. HTMLとPDFの両方でページを持っている場合、重複コンテンツになりますか?
A: Googleは、可能な限りコンテンツのコピーを1つだけ提供することを推奨しています。それができない場合は、優先バージョンを指定してください。これは、サイトマップにURLを含めるか、HTTPヘッダーまたはPDFリソースのHTMLで正規バージョンを指定することで行えます。
Q. 検索結果に表示されるPDF文書のタイトルを変更するにはどうすればよいですか?
A: Googleは表示されるタイトルを決定するために2つの要素を使用します:ファイルに含まれるタイトルメタデータと、PDFファイルを指すリンクのアンカーテキストです。Googleは、アルゴリズムに正しいタイトルについて強力なシグナルを与えるために、両方を更新することを推奨しています。