次を含むリストがあるとします。
some movie
some movie 2
the some movie
the third movie
another movie
the normal movie
通常のソートでは、リストは次のようになります。
another movie
some movie
some movie 2
the normal movie
the some movie
the third movie
ただし、次のように並べ替えるアプリやウェブサイトをいくつか見ました。
another movie
the normal movie
some movie
the some movie
some movie 2
the third movie
基本的に、the
を無視して並べ替え、 "the"ではなく実際の名前で並べ替えます。私が目にするいくつかの場所では、タイトルの最初にあるときにa
とan
でもこれを行っています。
私の質問:これらの並べ替え方法のどれを好むのですか?何があっても最初の文字で並べ替えるか、またはthe [x]
のようなものに「本当の」単語がないことを考慮に入れる必要があります(オブジェクト、アクション、またはオブジェクトについて説明することはできません) -ランダムか特定のアイテムかを定義します)。それで、最初の単語であるリストをソートするとき、the
、a
およびan
を無視する必要がありますか?
「ストップワード」を調べてください。
場合によっては、ユーザーのニーズに一致するドキュメントを選択するのに役立たないように見える非常に一般的ないくつかの単語が、語彙から完全に除外されます。これらの単語はストップワードと呼ばれます
(私はまた、決定論者、または記事を見ました)。
ストップリストを決定するための一般的な戦略は、用語をコレクションの頻度(各用語がドキュメントコレクションに出現する合計回数)で並べ替え、最も頻度の高い用語を使用します。ストップリストとして、インデックスが作成されているドキュメントのドメイン
詳細はこちら: https://nlp.stanford.edu/IR-book/html/htmledition/dropping-common-terms-stop-words-1.html
コンテキストによって異なります。
固有名詞(例:映画のタイトル、音楽アーティスト)の場合、文字列内で最も識別しやすい単語で並べ替えることをお勧めします。たとえば、このリスト:
Django Unchained
The Dark Knight
The Incredibles
Ex Machina
500 Days of Summer
次のようにソートされます:
500 Days of Summer
The Dark Knight
Django Unchained
Ex Machina
The Incredibles
数字と記号がアルファベット文字の前にある場合。これは、ユーザーが「インクレディブル」のように文の重要な部分に自然に引き寄せられるため、慣例です。
不適切な名詞や技術データについては、英数字順に並べ替えます。
タイトルには2つのエントリがあります。
次のようなソートされたリストが表示されます。
- 別の映画
- 通常の映画
- いくつかの映画
- いくつかの映画
- 一部の映画2
- 3番目の映画
または、次のように主要な記事を表示することもできます。
- 別の映画
- 通常の映画、
- いくつかの映画
- いくつかの映画、
- 一部の映画2
- 3番目の映画、
詳細ページには、完全なタイトルが表示されます。
一部の映画1
映画の説明...
これは、印刷された百科事典や語彙で一般的なパターンです。ただし、一部の映画タイトルでは、主要な記事がタイトル自体の主要部分であるため、削除しないでください。