web-dev-qa-db-ja.com

コマンドラインに対応したフルテキストインデックス処理?

コマンドラインからクエリを実行でき、理想的にはGUIをまったく使用する必要がない、フルテキストインデックスエンジンのようなものはありますか?

私は特に電子ブックとペーパーの索引付けに興味があるので、それはpdf、epub、およびいくつかのdjvuの混合です。 (オープン)Officeドキュメントはいいですが、私のリストでははるかに低いです。

38
julien

LuceneまたはSphinxを見たことがありますか?インデックスを作成するドキュメントを最初に解析する必要がありますが、それが完了すると、どちらもcliから検索できます。

Luceneの場合、これを実行するための情報 利用可能 があります。

Sphinxはもう少しあいまいですが、いくつかのドキュメント available もあります。選択した構造化XMLデータをxmlpipe2データソースを介してsphinxに渡すことができます。

LuceneはJavaに依存していますが、SphinxはC++で構築されており、外部の依存関係は必要ありません。

どちらの方法でも、やりたいことを行うには少し手間がかかりますが、完全に実行可能なソリューションのようです。

11
gabe.

チェックアウト xapian 。コマンドラインインターフェイスがあり、多くの形式のインデックスを作成できます。

5
Michał Šrajer

この回答 Googleの使用を推奨 codesearch

コード検索は、インデックスを作成し、ソースコードの大きな本体に対して正規表現検索を実行するためのツールです。

Debian /誘導体のスーパーユーザーは以下を試すことができます:Sudo apt-get install codesearch

4
joeytwiddle

Recoll はGUIなしで構築でき、コマンドラインからドキュメントタイプを検索します。

内部では Xapian を使用します。

4
user2391635

トラッカーはコマンドラインから呼び出すことができ、gtk +はプロジェクトのハードな依存関係ではありません(ただしパッケージの場合があります)。

3

現在Trackerには、安定(0.8)と不安定(0.9)の2つのストリームがあります。お使いのOSには0.8バージョンが含まれている可能性が高いため、余裕があれば( 最先端 ソフトウェアの依存関係がある場合)、最新のtarfile(0.9.x)を入手してください。それは たくさんの改善 0.8を超えており、現在 安定化中 でさらに0.10です(偶数は安定性を表します)。このルートを選択した場合は、次のコマンドを使用して構成します。

./configure --disable-tracker-needle --disable-tracker-preferences --disable-tracker-Explorer --disable-tracker-status-icon

おそらく依存関係をインストールするつもりはないので、単にディストリビューションから0.8をインストールし、GUIビットを回避するだけの方が簡単です。 Debian Squeeze、Ubuntu 10.10、Ubuntu 11.04では、これらはうまく分割されています。 ( ルートとして )実行:

apt-get install --no-install-recommends tracker-utils tracker-miner-fs

このためのCLIツールはtracker-searchであるため、--helpオプションを指定して実行すると、それを活用する方法がわかります:-)

メモ

  • Fedora 14では、TrackerパッケージはGTK +に依存しています。 tracker-applettracker-preferencesなどが含まれているためだと思います。ただし、GUI検索インターフェイスであるtracker-search-tool用の個別のパッケージはあります。
  • DjVuとePUBは(まだ)サポートされていません。これが あるもののリスト です。
2
tshepang

この夏、Sqlite3を使用してNetBSDのmanページの索引付けと検索を行うための全文検索ツール(新しいオプション)の作成に取り組みました。 2つのコマンドラインツールで構成されています。

  • makemandb:マンページのコンテンツのインデックスを解析して構築します。
  • apropos:このインデックスをクエリするためのツール。

同様のツールを自分で簡単に作成できます。PDFの場合は、PDFドキュメントを解析するためのライブラリと、同様にOpen Officeドキュメントを解析するためのユーティリティが必要です。

あなたはプロジェクトについてもっと読むことができます ここ

コードは here です

0