web-dev-qa-db-ja.com

リストの並べ替え:「[x]」はTまたは[x]の下にありますか

次を含むリストがあるとします。

some movie
some movie 2
the some movie
the third movie
another movie
the normal movie

通常のソートでは、リストは次のようになります。

another movie
some movie
some movie 2
the normal movie
the some movie
the third movie

ただし、次のように並べ替えるアプリやウェブサイトをいくつか見ました。

another movie 
the normal movie
some movie
the some movie
some movie 2
the third movie

基本的に、theを無視して並べ替え、 "the"ではなく実際の名前で並べ替えます。私が目にするいくつかの場所では、タイトルの最初にあるときにaanでもこれを行っています。

私の質問:これらの並べ替え方法のどれを好むのですか?何があっても最初の文字で並べ替えるか、またはthe [x]のようなものに「本当の」単語がないことを考慮に入れる必要があります(オブジェクト、アクション、またはオブジェクトについて説明することはできません) -ランダムか特定のアイテムかを定義します)。それで、最初の単語であるリストをソートするとき、theaおよびanを無視する必要がありますか?

4
user87595

「ストップワード」を調べてください。

場合によっては、ユーザーのニーズに一致するドキュメントを選択するのに役立たないように見える非常に一般的ないくつかの単語が、語彙から完全に除外されます。これらの単語はストップワードと呼ばれます

(私はまた、決定論者、または記事を見ました)。

ストップリストを決定するための一般的な戦略は、用語をコレクションの頻度(各用語がドキュメントコレクションに出現する合計回数)で並べ替え、最も頻度の高い用語を使用します。ストップリストとして、インデックスが作成されているドキュメントのドメイン

詳細はこちら: https://nlp.stanford.edu/IR-book/html/htmledition/dropping-common-terms-stop-words-1.html

3
user19702

コンテキストによって異なります。

固有名詞(例:映画のタイトル、音楽アーティスト)の場合、文字列内で最も識別しやすい単語で並べ替えることをお勧めします。たとえば、このリスト:

Django Unchained
The Dark Knight
The Incredibles
Ex Machina
500 Days of Summer

次のようにソートされます:

500 Days of Summer
The Dark Knight
Django Unchained
Ex Machina
The Incredibles

数字と記号がアルファベット文字の前にある場合。これは、ユーザーが「インクレディブル」のように文の重要な部分に自然に引き寄せられるため、慣例です。

不適切な名詞や技術データについては、英数字順に並べ替えます。

2
Alan

タイトルには2つのエントリがあります。

  • ソートされたリストで使用される「短いタイトル」(先頭の「The」なし)
  • 映画の詳細ページで使用される「長いタイトル」。

次のようなソートされたリストが表示されます。

  • 別の映画
  • 通常の映画
  • いくつかの映画
  • いくつかの映画
  • 一部の映画2
  • 3番目の映画

または、次のように主要な記事を表示することもできます。

  • 別の映画
  • 通常の映画、
  • いくつかの映画
  • いくつかの映画、
  • 一部の映画2
  • 3番目の映画、

詳細ページには、完全なタイトルが表示されます。

一部の映画1

映画の説明...


これは、印刷された百科事典や語彙で一般的なパターンです。ただし、一部の映画タイトルでは、主要な記事がタイトル自体の主要部分であるため、削除しないでください。

1
Stefano