web-dev-qa-db-ja.com

PHP MD5多次元配列への最良の方法?

多次元配列のMD5(またはその他のハッシュ)を生成する最良の方法は何ですか?

配列の各レベルを横断し、各値を文字列に連結し、単純に文字列でMD5を実行するループを簡単に作成できます。

しかし、これはせいぜい面倒で、多次元配列を取り、それをハッシュするファンキーな関数があるのだろうかと思いました。

108
Peter John

(下部のコピーアンドペースト可能な機能)

前に述べたように、以下が機能します。

md5(serialize($array));

ただし、(皮肉なことに)json_encodeは顕著に高速に実行することに注意してください:

md5(json_encode($array));

実際、(1)json_encode単独ではシリアライズよりも高速に実行されるため、(2)json_encodeは小さな文字列を生成するため、md5が処理する速度が低下するため、速度の向上は2倍になります。

編集:この主張を裏付ける証拠は次のとおりです。

<?php //this is the array I'm using -- it's multidimensional.
$array = unserialize('a:6:{i:0;a:0:{}i:1;a:3:{i:0;a:0:{}i:1;a:0:{}i:2;a:3:{i:0;a:0:{}i:1;a:0:{}i:2;a:0:{}}}i:2;s:5:"hello";i:3;a:2:{i:0;a:0:{}i:1;a:0:{}}i:4;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:0:{}}}}}}}i:5;a:5:{i:0;a:0:{}i:1;a:4:{i:0;a:0:{}i:1;a:0:{}i:2;a:3:{i:0;a:0:{}i:1;a:0:{}i:2;a:0:{}}i:3;a:6:{i:0;a:0:{}i:1;a:3:{i:0;a:0:{}i:1;a:0:{}i:2;a:3:{i:0;a:0:{}i:1;a:0:{}i:2;a:0:{}}}i:2;s:5:"hello";i:3;a:2:{i:0;a:0:{}i:1;a:0:{}}i:4;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:0:{}}}}}}}i:5;a:5:{i:0;a:0:{}i:1;a:3:{i:0;a:0:{}i:1;a:0:{}i:2;a:3:{i:0;a:0:{}i:1;a:0:{}i:2;a:0:{}}}i:2;s:5:"hello";i:3;a:2:{i:0;a:0:{}i:1;a:0:{}}i:4;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:0:{}}}}}}}}}}i:2;s:5:"hello";i:3;a:2:{i:0;a:0:{}i:1;a:0:{}}i:4;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:1:{i:0;a:0:{}}}}}}}}}');

//The serialize test
$b4_s = microtime(1);
for ($i=0;$i<10000;$i++) {
    $serial = md5(serialize($array));
}
echo 'serialize() w/ md5() took: '.($sTime = microtime(1)-$b4_s).' sec<br/>';

//The json test
$b4_j = microtime(1);
for ($i=0;$i<10000;$i++) {
    $serial = md5(json_encode($array));
}
echo 'json_encode() w/ md5() took: '.($jTime = microtime(1)-$b4_j).' sec<br/><br/>';
echo 'json_encode is <strong>'.( round(($sTime/$jTime)*100,1) ).'%</strong> faster with a difference of <strong>'.($sTime-$jTime).' seconds</strong>';

JSON_ENCODEは一貫して250%(2.5倍)以上高速です(多くの場合300%以上)-これは些細な違いではありません。このライブスクリプトを使用したテストの結果は、次のとおりです。

ここで注意すべきことは、array(1,2,3)はarray(3,2,1)とは異なるMD5を生成することです。 Ifこれはあなたが望むものではありません。次のコードを試してください:

//Optionally make a copy of the array (if you want to preserve the original order)
$original = $array;

array_multisort($array);
$hash = md5(json_encode($array));

編集:順序を逆にしても同じ結果が得られるかどうかについては、いくつかの質問がありました。だから、私はそれをここで(正しく)しました:

ご覧のとおり、結果はまったく同じです。以下は(corrected)テストです 元はDrupalに関連する誰かによって作成されました

また、適切な測定のために、コピーして貼り付けることができる関数/メソッドがあります(5.3.3-1ubuntu9.5でテスト済み):

function array_md5(Array $array) {
    //since we're inside a function (which uses a copied array, not 
    //a referenced array), you shouldn't need to copy the array
    array_multisort($array);
    return md5(json_encode($array));
}
236
Nathan J.B.
md5(serialize($array));
168
Brock Batsell

私は非常に混み合ったパーティーに参加して回答していますが、現存する回答がどれも対処しないという重要な考慮事項があります。 json_encode()serialize()の値は両方とも配列内の要素の順序に依存します!

同じ値を持つが異なる順序で追加された2つの配列(投稿の下部にあるコード)

_    serialize()
1c4f1064ab79e4722f41ab5a8141b210
1ad0f2c7e690c8e3cd5c34f7c9b8573a

    json_encode()
db7178ba34f9271bfca3a05c5dddf502
c9661c0852c2bd0e26ef7951b4ca9e6f

    Sorted serialize()
1c4f1064ab79e4722f41ab5a8141b210
1c4f1064ab79e4722f41ab5a8141b210

    Sorted json_encode()
db7178ba34f9271bfca3a05c5dddf502
db7178ba34f9271bfca3a05c5dddf502
_

したがって、配列のハッシュに推奨する2つの方法は次のとおりです。

_// You will need to write your own deep_ksort(), or see
// my example below

md5(   serialize(deep_ksort($array)) );

md5( json_encode(deep_ksort($array)) );
_

json_encode()またはserialize()の選択は、youを使用しています。純粋にテキストおよび数値データでの独自のテストでは、コードが何千回もタイトなループを実行していない場合、その差はベンチマークする価値さえありません。私は個人的にjson_encode()をそのタイプのデータに使用しています。

上記のソートテストの生成に使用されるコードは次のとおりです

_$a = array();
$a['aa'] = array( 'aaa'=>'AAA', 'bbb'=>'ooo', 'qqq'=>'fff',);
$a['bb'] = array( 'aaa'=>'BBBB', 'iii'=>'dd',);

$b = array();
$b['aa'] = array( 'aaa'=>'AAA', 'qqq'=>'fff', 'bbb'=>'ooo',);
$b['bb'] = array( 'iii'=>'dd', 'aaa'=>'BBBB',);

echo "    serialize()\n";
echo md5(serialize($a))."\n";
echo md5(serialize($b))."\n";

echo "\n    json_encode()\n";
echo md5(json_encode($a))."\n";
echo md5(json_encode($b))."\n";



$a = deep_ksort($a);
$b = deep_ksort($b);

echo "\n    Sorted serialize()\n";
echo md5(serialize($a))."\n";
echo md5(serialize($b))."\n";

echo "\n    Sorted json_encode()\n";
echo md5(json_encode($a))."\n";
echo md5(json_encode($b))."\n";
_

私のdeep_ksort()クイック実装は、このケースに適合しますが、自分のプロジェクトで使用する前に確認してください:

_/*
* Sort an array by keys, and additionall sort its array values by keys
*
* Does not try to sort an object, but does iterate its properties to
* sort arrays in properties
*/
function deep_ksort($input)
{
    if ( !is_object($input) && !is_array($input) ) {
        return $input;
    }

    foreach ( $input as $k=>$v ) {
        if ( is_object($v) || is_array($v) ) {
            $input[$k] = deep_ksort($v);
        }
    }

    if ( is_array($input) ) {
        ksort($input);
    }

    // Do not sort objects

    return $input;
}
_
21
dotancohen

答えは配列値のデータ型に大きく依存します。大きな文字列の場合:

md5(serialize($array));

短い文字列と整数の場合:

md5(json_encode($array));

4ビルトインPHP関数は配列を文字列に変換できます: serialize()json_encode()var_export()print_r() .

注意:json_encode() 関数は、文字列を値として連想配列を処理しているときに速度が低下します。この場合、 serialize() 関数の使用を検討してください。

キーと値にmd5ハッシュ(32文字)を含む多次元配列のテスト結果:

Test name       Repeats         Result          Performance     
serialize       10000           0.761195 sec    +0.00%
print_r         10000           1.669689 sec    -119.35%
json_encode     10000           1.712214 sec    -124.94%
var_export      10000           1.735023 sec    -127.93%

数値多次元配列のテスト結果:

Test name       Repeats         Result          Performance     
json_encode     10000           1.040612 sec    +0.00%
var_export      10000           1.753170 sec    -68.47%
serialize       10000           1.947791 sec    -87.18%
print_r         10000           9.084989 sec    -773.04%

連想配列 テストソース 。数値配列 テストソース

9

ブロックの優れた回答(+1)以外に、適切なハッシュライブラリを使用すると、ハッシュを段階的に更新できるため、1つの巨大な文字列を作成する代わりに、各文字列を連続して更新できる必要があります。

見る: - hash_update

7

serializeおよびjson_encodeは、キーが0で始まらない数値配列、または連想配列の場合、異なる動作をします。 json_encodeは、そのような配列をObjectとして格納するため、json_decodeObjectを返します。unserializeはまったく同じキーを持つ配列を返します。

3
Willem-Jan

これは良いヒントになると思います:

Class hasharray {

    public function array_flat($in,$keys=array(),$out=array()){
        foreach($in as $k => $v){
            $keys[] = $k; 
            if(is_array($v)){
                $out = $this->array_flat($v,$keys,$out);
            }else{
                $out[implode("/",$keys)] = $v;
            }
            array_pop($keys);
        }
        return $out;  
    }

    public function array_hash($in){
        $a = $this->array_flat($in);
        ksort($a);
        return md5(json_encode($a));
    }

}

$h = new hasharray;
echo $h->array_hash($multi_dimensional_array);
3
md5(serialize($array));

動作しますが、配列の順序に応じてハッシュが変更されます(ただし、問題になることはありません)。

3
Max Wheeler

serialize()に関する重要な注意

次の例では異なる結果を返す可能性があるため、ハッシュ関数の一部として使用することはお勧めしません。以下の例を確認してください。

簡単な例:

$a = new \stdClass;
$a->test = 'sample';

$b = new \stdClass;
$b->one = $a;
$b->two = clone $a;

生産する

"O:8:"stdClass":2:{s:3:"one";O:8:"stdClass":1:{s:4:"test";s:6:"sample";}s:3:"two";O:8:"stdClass":1:{s:4:"test";s:6:"sample";}}"

しかし、次のコード:

<?php

$a = new \stdClass;
$a->test = 'sample';

$b = new \stdClass;
$b->one = $a;
$b->two = $a;

出力:

"O:8:"stdClass":2:{s:3:"one";O:8:"stdClass":1:{s:4:"test";s:6:"sample";}s:3:"two";r:2;}"

したがって、2番目のオブジェクトphpの代わりに、リンク「r:2;」を作成します。最初のインスタンスに。データをシリアル化するのは間違いなく適切で正しい方法ですが、ハッシュ関数の問題につながる可能性があります。

2
TermiT
// Convert nested arrays to a simple array
$array = array();
array_walk_recursive($input, function ($a) use (&$array) {
    $array[] = $a;
});

sort($array);

$hash = md5(json_encode($array));

----

These arrays have the same hash:
$arr1 = array(0 => array(1, 2, 3), 1, 2);
$arr2 = array(0 => array(1, 3, 2), 1, 2);
2
ymakux

json_codeを使用するように指示するいくつかの回答があります。

ただし、json_encodeはiso-8859-1文字列では正常に動作しません。特殊な文字が存在するとすぐに、文字列がトリミングされます。

var_exportを使用することをお勧めします。

md5(var_export($array, true))

シリアル化ほど遅くなく、json_encodeほどバグがありません。

1
Bruno

現在、最もよく投票された回答md5(serialize($array));はオブジェクトではうまく機能しません。

コードを検討してください:

_ $a = array(new \stdClass());
 $b = array(new \stdClass());
_

配列は異なっていても(異なるオブジェクトを含んでいます)、md5(serialize($array));を使用すると同じハッシュを持ちます。だからあなたのハッシュは役に立たない!

この問題を回避するには、シリアル化する前にオブジェクトをspl_object_hash()の結果に置き換えることができます。また、配列に複数のレベルがある場合は、再帰的に実行する必要があります。

また、以下のコードは、dotancohenが示唆したように、配列をキーでソートします。

_function replaceObjectsWithHashes(array $array)
{
    foreach ($array as &$value) {
        if (is_array($value)) {
            $value = $this->replaceObjectsInArrayWithHashes($value);
        } elseif (is_object($value)) {
            $value = spl_object_hash($value);
        }
    }
    ksort($array);
    return $array;
}
_

これで、md5(serialize(replaceObjectsWithHashes($array)))を使用できます。

(PHPの配列は値型です。したがって、replaceObjectsWithHashes関数は元の配列を変更しないでください。)

0
Damian Polac

上記のように簡単に解決策を見つけられなかったため、より簡単な回答を提供したいと考えました。私にとっては、ksort(キーソート)を使用するまで同じキーを取得していました。

最初にKsortでソートし、次にjson_encodeでsha1を実行しました。

ksort($array)
$hash = sha1(json_encode($array) //be mindful of UTF8

例:

$arr1 = array( 'dealer' => '100', 'direction' => 'ASC', 'dist' => '500', 'limit' => '1', 'Zip' => '10601');
ksort($arr1);

$arr2 = array( 'direction' => 'ASC', 'limit' => '1', 'Zip' => '10601', 'dealer' => '100', 'dist' => '5000');
ksort($arr2);

var_dump(sha1(json_encode($arr1)));
var_dump(sha1(json_encode($arr2)));

変更された配列とハッシュの出力:

string(40) "502c2cbfbe62e47eb0fe96306ecb2e6c7e6d014c"
string(40) "b3319c58edadab3513832ceeb5d68bfce2fb3983"
0
Mike Q