私は分析ツールを構築しており、現在、ユーザーエージェントからユーザーのIPアドレス、ブラウザー、およびオペレーティングシステムを取得できます。
Cookieやローカルストレージを使用せずに同じユーザーを検出する可能性があるのだろうか?ここではコード例を期待していません。さらに詳しく調べる場所の簡単なヒント。
同じコンピューター/デバイスの場合は、ブラウザー間の互換性が必要であることを言及するのを忘れました。基本的に、私は実際にユーザーではなくデバイスを認識した後です。
はじめに
私があなたを正しく理解しているなら、あなたはあなたがユニークな識別子を持っていないユーザーを識別する必要があるので、あなたはランダムデータを照合することによって彼らが誰であるかを知りたいです。次の理由により、ユーザーのIDを確実に保存することはできません。
A Java AppletまたはCom Objectは、ハードウェア情報のハッシュを使用した簡単なソリューションでしたが、最近では人々はセキュリティを認識しているため、これらの種類のシステム上のプログラム:これにより、Cookieや他の同様のツールを使用することに固執します。
クッキーおよびその他の同様のツール
データプロファイルを構築してから、確率テストを使用してProbable Userを特定することを検討できます。これに役立つプロファイルは、次のいくつかの組み合わせによって生成できます。
私がリストした項目は、もちろん、ユーザーを一意に識別することができるいくつかの可能な方法です。他にもたくさんあります。
データプロファイルを構築するランダムデータ要素のこのセットで、次は何をしますか?
次のステップは、いくつかの ファジーロジック を開発することです。さらに良いのは、 人工ニューラルネットワーク (ファジーロジックを使用する)です。いずれの場合も、システムをトレーニングし、そのトレーニングを Bayesian Inference と組み合わせて、結果の精度を高めるという考え方です。
NeuralMesh ライブラリPHPを使用すると、人工ニューラルネットワークを生成できます。ベイジアン推論を実装するには、次のリンクをチェックしてください。
この時点で、あなたは考えているかもしれません:
一見単純なタスクになぜそれほど多くの数学と論理が必要なのか?
基本的に、単純なタスクではないためです。実際に達成しようとしているのは、Pure Probabilityです。たとえば、次の既知のユーザーがあるとします。
User1 = A + B + C + D + G + K
User2 = C + D + I + J + K + F
次のデータを受け取ったとき:
B + C + E + G + F + K
あなたが本質的に尋ねている質問は次のとおりです。
受信したデータ(B + C + E + G + F + K)が実際にUser1またはUser2である確率はどのくらいですか?そして、これらの2つの一致のうち、mostの可能性が高いのはどれですか?
この質問に効果的に答えるには、 周波数と確率の形式 、および 結合確率 がより良いアプローチである理由を理解する必要があります。詳細をここに入れるには多すぎます(これがリンクを提供する理由です)が、良い例は Medical Diagnosis Wizard Application です。症状の組み合わせを使用して、考えられる疾患を特定します。
データプロファイル(上記の例ではB + C + E + G + F + K)を構成する一連のデータポイントについて、症状および不明なユーザーと考えてくださいasDiseases。疾患を特定することにより、適切な治療をさらに特定できます(このユーザーをUser1として扱います)。
明らかに、1つ以上症状を特定したDiseaseを特定する方が簡単です。実際、より多くの症状を特定できれば、診断はより簡単で正確になります。
他の選択肢はありますか?
もちろん。別の方法として、独自の単純なスコアリングアルゴリズムを作成し、完全一致に基づいて作成することもできます。これは確率ほど効率的ではありませんが、実装する方が簡単かもしれません。
例として、次の簡単なスコアチャートを考えます。
+ ------------------------- + -------- + --------- --- + |プロパティ|重さ|重要度| + ------------------------- + -------- + ------- ----- + |実IPアドレス| 60 | 5 | |使用されたプロキシIPアドレス| 40 | 4 | | HTTP Cookie | 80 | 8 | |セッションCookie | 80 | 6 | |サードパーティCookie | 60 | 4 | |フラッシュクッキー| 90 | 7 | | PDF Bug | 20 | 1 | | Flashバグ| 20 | 1 | | Java Bug | 20 | 1 | |頻繁なページ| 40 | 1 | |ブラウザーの指紋| 35 | 2 | |インストールされたプラグイン| 25 | 1 | |キャッシュされた画像| 40 | 3 | | URL | 60 | 4 | |システムフォントの検出| 70 | 4 | | Localstorage | 90 | 8 | | Geolocation | 70 | 6 | | AOLTR | 70 | 4 | |ネットワーク情報API | 40 | 3 | |バッテリーステータスAPI | 20 | 1 | + ------------------------- + -------- + ------------ +
特定のリクエストで収集できる情報ごとに、関連するスコアを付与し、Importanceを使用して、スコアが同じ場合の競合を解決します。
概念実証
概念の簡単な証明については、 パーセプトロン をご覧ください。パーセプトロンは、パターン認識アプリケーションで一般的に使用される RNAモデル です。古い PHPクラス もありますが、これは完全に実装していますが、目的に合わせて変更する必要があるでしょう。
優れたツールであるにもかかわらず、パーセプトロンは依然として複数の結果(一致する可能性がある)を返すことができるため、スコアと差分の比較を使用すると、それらの一致のbestを特定するのに役立ちます。
仮定
期待値
概念実証用コード
$features = array(
'Real IP address' => .5,
'Used proxy IP address' => .4,
'HTTP Cookies' => .9,
'Session Cookies' => .6,
'3rd Party Cookies' => .6,
'Flash Cookies' => .7,
'PDF Bug' => .2,
'Flash Bug' => .2,
'Java Bug' => .2,
'Frequent Pages' => .3,
'Browsers Finger Print' => .3,
'Installed Plugins' => .2,
'URL' => .5,
'Cached PNG' => .4,
'System Fonts Detection' => .6,
'Localstorage' => .8,
'Geolocation' => .6,
'AOLTR' => .4,
'Network Information API' => .3,
'Battery Status API' => .2
);
// Get RNA Lables
$labels = array();
$n = 1;
foreach ($features as $k => $v) {
$labels[$k] = "x" . $n;
$n ++;
}
// Create Users
$users = array();
for($i = 0, $name = "A"; $i < 5; $i ++, $name ++) {
$users[] = new Profile($name, $features);
}
// Generate Unknown User
$unknown = new Profile("Unknown", $features);
// Generate Unknown RNA
$unknownRNA = array(
0 => array("o" => 1),
1 => array("o" => - 1)
);
// Create RNA Values
foreach ($unknown->data as $item => $point) {
$unknownRNA[0][$labels[$item]] = $point;
$unknownRNA[1][$labels[$item]] = (- 1 * $point);
}
// Start Perception Class
$perceptron = new Perceptron();
// Train Results
$trainResult = $perceptron->train($unknownRNA, 1, 1);
// Find matches
foreach ($users as $name => &$profile) {
// Use shorter labels
$data = array_combine($labels, $profile->data);
if ($perceptron->testCase($data, $trainResult) == true) {
$score = $diff = 0;
// Determing the score and diffrennce
foreach ($unknown->data as $item => $found) {
if ($unknown->data[$item] === $profile->data[$item]) {
if ($profile->data[$item] > 0) {
$score += $features[$item];
} else {
$diff += $features[$item];
}
}
}
// Ser score and diff
$profile->setScore($score, $diff);
$matchs[] = $profile;
}
}
// Sort bases on score and Output
if (count($matchs) > 1) {
usort($matchs, function ($a, $b) {
// If score is the same use diffrence
if ($a->score == $b->score) {
// Lower the diffrence the better
return $a->diff == $b->diff ? 0 : ($a->diff > $b->diff ? 1 : - 1);
}
// The higher the score the better
return $a->score > $b->score ? - 1 : 1;
});
echo "<br />Possible Match ", implode(",", array_slice(array_map(function ($v) {
return sprintf(" %s (%0.4f|%0.4f) ", $v->name, $v->score,$v->diff);
}, $matchs), 0, 2));
} else {
echo "<br />No match Found ";
}
Possible Match D (0.7416|0.16853),C (0.5393|0.2809)
「D」のPrint_r:
echo "<pre>";
print_r($matchs[0]);
Profile Object(
[name] => D
[data] => Array (
[Real IP address] => -1
[Used proxy IP address] => -1
[HTTP Cookies] => 1
[Session Cookies] => 1
[3rd Party Cookies] => 1
[Flash Cookies] => 1
[PDF Bug] => 1
[Flash Bug] => 1
[Java Bug] => -1
[Frequent Pages] => 1
[Browsers Finger Print] => -1
[Installed Plugins] => 1
[URL] => -1
[Cached PNG] => 1
[System Fonts Detection] => 1
[Localstorage] => -1
[Geolocation] => -1
[AOLTR] => 1
[Network Information API] => -1
[Battery Status API] => -1
)
[score] => 0.74157303370787
[diff] => 0.1685393258427
[base] => 8.9
)
Debug = trueの場合、 入力(センサーと希望)、初期重み、出力(センサー、合計、ネットワーク)、エラー、修正、最終重み を確認できます。
+----+----+----+----+----+----+----+----+----+----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+-----+----+---------+---------+---------+---------+---------+---------+---------+---------+---------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----+----+----+----+----+----+----+----+----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----------+
| o | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | x10 | x11 | x12 | x13 | x14 | x15 | x16 | x17 | x18 | x19 | x20 | Bias | Yin | Y | deltaW1 | deltaW2 | deltaW3 | deltaW4 | deltaW5 | deltaW6 | deltaW7 | deltaW8 | deltaW9 | deltaW10 | deltaW11 | deltaW12 | deltaW13 | deltaW14 | deltaW15 | deltaW16 | deltaW17 | deltaW18 | deltaW19 | deltaW20 | W1 | W2 | W3 | W4 | W5 | W6 | W7 | W8 | W9 | W10 | W11 | W12 | W13 | W14 | W15 | W16 | W17 | W18 | W19 | W20 | deltaBias |
+----+----+----+----+----+----+----+----+----+----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+-----+----+---------+---------+---------+---------+---------+---------+---------+---------+---------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----+----+----+----+----+----+----+----+----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----------+
| 1 | 1 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 0 | -1 | 0 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | 1 | 1 | 0 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 |
| -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | -1 | -1 | 1 | -19 | -1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 |
| -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
| 1 | 1 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 19 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 |
| -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | -1 | -1 | 1 | -19 | -1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 |
| -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
+----+----+----+----+----+----+----+----+----+----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+-----+----+---------+---------+---------+---------+---------+---------+---------+---------+---------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----------+----+----+----+----+----+----+----+----+----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----------+
x1からx20は、コードによって変換された機能を表します。
// Get RNA Labels
$labels = array();
$n = 1;
foreach ( $features as $k => $v ) {
$labels[$k] = "x" . $n;
$n ++;
}
使用クラス:
class Profile {
public $name, $data = array(), $score, $diff, $base;
function __construct($name, array $importance) {
$values = array(-1, 1); // Perception values
$this->name = $name;
foreach ($importance as $item => $point) {
// Generate Random true/false for real Items
$this->data[$item] = $values[mt_Rand(0, 1)];
}
$this->base = array_sum($importance);
}
public function setScore($score, $diff) {
$this->score = $score / $this->base;
$this->diff = $diff / $this->base;
}
}
修正パーセプトロンクラス
class Perceptron {
private $w = array();
private $dw = array();
public $debug = false;
private function initialize($colums) {
// Initialize perceptron vars
for($i = 1; $i <= $colums; $i ++) {
// weighting vars
$this->w[$i] = 0;
$this->dw[$i] = 0;
}
}
function train($input, $alpha, $teta) {
$colums = count($input[0]) - 1;
$weightCache = array_fill(1, $colums, 0);
$checkpoints = array();
$keepTrainning = true;
// Initialize RNA vars
$this->initialize(count($input[0]) - 1);
$just_started = true;
$totalRun = 0;
$yin = 0;
// Trains RNA until it gets stable
while ($keepTrainning == true) {
// Sweeps each row of the input subject
foreach ($input as $row_counter => $row_data) {
// Finds out the number of columns the input has
$n_columns = count($row_data) - 1;
// Calculates Yin
$yin = 0;
for($i = 1; $i <= $n_columns; $i ++) {
$yin += $row_data["x" . $i] * $weightCache[$i];
}
// Calculates Real Output
$Y = ($yin <= 1) ? - 1 : 1;
// Sweeps columns ...
$checkpoints[$row_counter] = 0;
for($i = 1; $i <= $n_columns; $i ++) {
/** DELTAS **/
// Is it the first row?
if ($just_started == true) {
$this->dw[$i] = $weightCache[$i];
$just_started = false;
// Found desired output?
} elseif ($Y == $row_data["o"]) {
$this->dw[$i] = 0;
// Calculates Delta Ws
} else {
$this->dw[$i] = $row_data["x" . $i] * $row_data["o"];
}
/** WEIGHTS **/
// Calculate Weights
$this->w[$i] = $this->dw[$i] + $weightCache[$i];
$weightCache[$i] = $this->w[$i];
/** CHECK-POINT **/
$checkpoints[$row_counter] += $this->w[$i];
} // END - for
foreach ($this->w as $index => $w_item) {
$debug_w["W" . $index] = $w_item;
$debug_dw["deltaW" . $index] = $this->dw[$index];
}
// Special for script debugging
$debug_vars[] = array_merge($row_data, array(
"Bias" => 1,
"Yin" => $yin,
"Y" => $Y
), $debug_dw, $debug_w, array(
"deltaBias" => 1
));
} // END - foreach
// Special for script debugging
$empty_data_row = array();
for($i = 1; $i <= $n_columns; $i ++) {
$empty_data_row["x" . $i] = "--";
$empty_data_row["W" . $i] = "--";
$empty_data_row["deltaW" . $i] = "--";
}
$debug_vars[] = array_merge($empty_data_row, array(
"o" => "--",
"Bias" => "--",
"Yin" => "--",
"Y" => "--",
"deltaBias" => "--"
));
// Counts training times
$totalRun ++;
// Now checks if the RNA is stable already
$referer_value = end($checkpoints);
// if all rows match the desired output ...
$sum = array_sum($checkpoints);
$n_rows = count($checkpoints);
if ($totalRun > 1 && ($sum / $n_rows) == $referer_value) {
$keepTrainning = false;
}
} // END - while
// Prepares the final result
$result = array();
for($i = 1; $i <= $n_columns; $i ++) {
$result["w" . $i] = $this->w[$i];
}
$this->debug($this->print_html_table($debug_vars));
return $result;
} // END - train
function testCase($input, $results) {
// Sweeps input columns
$result = 0;
$i = 1;
foreach ($input as $column_value) {
// Calculates teste Y
$result += $results["w" . $i] * $column_value;
$i ++;
}
// Checks in each class the test fits
return ($result > 0) ? true : false;
} // END - test_class
// Returns the html code of a html table base on a hash array
function print_html_table($array) {
$html = "";
$inner_html = "";
$table_header_composed = false;
$table_header = array();
// Builds table contents
foreach ($array as $array_item) {
$inner_html .= "<tr>\n";
foreach ( $array_item as $array_col_label => $array_col ) {
$inner_html .= "<td>\n";
$inner_html .= $array_col;
$inner_html .= "</td>\n";
if ($table_header_composed == false) {
$table_header[] = $array_col_label;
}
}
$table_header_composed = true;
$inner_html .= "</tr>\n";
}
// Builds full table
$html = "<table border=1>\n";
$html .= "<tr>\n";
foreach ($table_header as $table_header_item) {
$html .= "<td>\n";
$html .= "<b>" . $table_header_item . "</b>";
$html .= "</td>\n";
}
$html .= "</tr>\n";
$html .= $inner_html . "</table>";
return $html;
} // END - print_html_table
// Debug function
function debug($message) {
if ($this->debug == true) {
echo "<b>DEBUG:</b> $message";
}
} // END - debug
} // END - class
結論
一意の識別子なしでユーザーを識別することは、簡単な作業でも簡単な作業でもありません。これは、さまざまな方法でユーザーから収集できる十分な量のランダムデータを収集することに依存しています。
人工ニューラルネットワークを使用しないことを選択した場合でも、少なくとも優先順位と可能性を備えた単純な確率マトリックスを使用することをお勧めします。上記のコードと例が十分なものになることを願っています。
この手法(Cookieなしで、またはIPアドレスなしでも同じユーザーを検出するため)は、ブラウザーフィンガープリントと呼ばれます。基本的には、ブラウザに関する情報としてできる限りクロールします。javascript、flash、またはJava(f.ex.インストールされている拡張機能、フォントなど)を使用すると、より良い結果を得ることができます。必要に応じて、ハッシュされた結果を保存できます。
それは絶対ではありませんが、:
閲覧されたブラウザの83.6%には固有の指紋がありました。 FlashまたはJavaが有効、94.2%。これにはCookieは含まれません!
詳細:
Evercookie を調べましたか?ブラウザ間で機能する場合と機能しない場合があります。サイトからの抜粋。
「ユーザーが1つのブラウザーでCookieを取得し、別のブラウザーに切り替えた場合、ローカル共有オブジェクトCookieが残っている限り、Cookieは両方のブラウザーで再現されます。」
上記のthumb印は機能しますが、それでもコリジョンが発生する可能性があります。
1つの方法は、ユーザーとの各対話のURLにUIDを追加することです。
http://someplace.com/12899823/user/profile
この修飾子を使用して、サイト内のすべてのリンクが適応されます。 ASP.Netがページ間でFORMデータを使用して動作していた方法に似ています。
キャッシュされたPNGでこれを行うことができますが、それは多少信頼できません(異なるブラウザは異なる動作をし、ユーザーがキャッシュをクリアすると失敗します)が、それはオプションです。
1:一意のユーザーIDを16進文字列として保存するデータベースを設定します
2:ユーザーIDを生成し、DBに保存するgenUser.php(または任意の言語)ファイルを作成し、その16進文字列の値からトゥルーカラー.pngを作成し(各ピクセルは4バイトになります)それをブラウザに。必ずコンテンツタイプとキャッシュヘッダーを設定してください。
3:HTMLまたはJSで_<img id='user_id' src='genUser.php' />
_のような画像を作成します
4:その画像をキャンバスに描画しますctx.drawImage(document.getElementById('user_id'), 0, 0);
5:_ctx.getImageData
_を使用してそのイメージのバイトを読み取り、整数を16進文字列に変換します。
6:これは、ユーザーのコンピューターにキャッシュされた一意のユーザーIDです。
あなたが言ったことに基づいて:
基本的に、私は実際にはユーザーではなくデバイス認識の後です
最善の方法は、MACアドレスを送信することです。MACアドレスは、NIC IDです。
この投稿をご覧ください: PHPで接続されたクライアントのMACアドレスとIPアドレスを取得するにはどうすればよいですか?
潜在的にデバイス識別子を保存するblobを作成できます...
欠点は、ブラウザがファイルシステムにアクセスしてファイルを直接保存できないため、ユーザーがblobをダウンロードする必要があることです( ダウンロードを強制できます )。
参照:
https://www.inkling.com/read/javascript-definitive-guide-david-flanagan-6th/chapter-22/blobs
あなたはetagsでそれを行うことができます。訴訟の束としてこの合法性が提出されたかどうかはわかりませんが。
ユーザーに適切に警告する場合、またはイントラネットWebサイトのようなものがある場合は、大丈夫かもしれません。
信じられない、 http://browserspy.dk ここにはまだ言及されていない!このサイトでは、分類器の構築に使用できる多くの機能について(パターン認識の観点から)説明しています。
そして、機能を評価するために、サポートベクターマシンと libsvm を特にお勧めします。
セッション中またはセッション全体でそれらを追跡しますか?
サイトがHTTPS Everywhereの場合、TLSセッションIDを使用してユーザーのセッションを追跡できます
効率的ではありませんが、望ましい結果が得られる場合は、APIをポーリングすることです。一定間隔でユーザーデータを送信するクライアント側でバックグラウンドプロセスを実行します。 APIに送信するにはユーザーIDが必要です。それができたら、その一意の識別子に関連付けられた情報を送信できます。
これにより、Cookieとlocalstorageが不要になります。