いくつかの基本的なクラスタリング手法をいくつかの緯度と経度の座標に適用したいと思います。クラスタリング(または教師なし学習)の線に沿った何かが、座標をグループに分け、 大円 距離または 測地線 距離のいずれかによって決定されます。 注:これは非常に貧弱なアプローチである可能性があるため、アドバイスしてください。
理想的には、R
でこれに取り組みたいと思います。
私はいくつかの検索を行いましたが、おそらく私はしっかりしたアプローチを逃しましたか?私はパッケージに出くわしました:flexclust
とpam
-しかし、私は以下に関して明確な例に出くわしていません:
flexclut
(kcca
またはcclust
経由)またはpam
のいずれかで、ランダムな再起動が考慮されますか?[〜#〜] elki [〜#〜] で空間データをクラスター化することがあります。
それはRではありません(私はRが好きではなく、多くの状況で非常に遅いことがわかりました。実際、単純な行列の乗算とCまたはFortranコードへの単純な呼び出し以外は遅いです。)
とにかく、ELKIは測地距離をサポートしており、これらの距離のインデックスアクセラレーションもサポートしています(MツリーとR *ツリーの両方を介して;バルクロードされたR *ツリーは私にとって最適であり、大幅なスピードアップをもたらします)。また、DBSCANやOPTICSなどの多くのクラスタリングアルゴリズムをこれらの距離関数で使用できます。
ELKIクラスタリングで得たものの例を次に示します。 https://stackoverflow.com/a/14702758/106035
しかし、私はコードを保持しませんでした。 KML出力にPythonを使用したのか、それともELKI出力モジュールを実装したのかわからない。