比較的大きな数を乗算し、結果を1つまたは複数の整数に格納するための効率的な(オプションで、標準で、エレガントで、実装が簡単な)ソリューションを探しています。
このように宣言された2つの64ビット整数があるとしましょう:
uint64_t a = xxx, b = yyy;
私がする時 a * b
、操作の結果オーバーフローが発生したかどうかを検出し、この場合はキャリーをどこかに格納できますか?
大規模なライブラリを使用したくないに注意してください。これは、数値の格納方法に制約があるためです。
1。オーバーフローの検出:
x = a * b;
if (a != 0 && x / a != b) {
// overflow handling
}
編集:0
による除算を修正しました(Markに感謝!)
2。キャリーの計算は非常に複雑です。 1つのアプローチは、両方のオペランドをハーフワードに分割してから、ハーフワードに 長い乗算 を適用することです。
uint64_t hi(uint64_t x) {
return x >> 32;
}
uint64_t lo(uint64_t x) {
return ((1L << 32) - 1) & x;
}
void multiply(uint64_t a, uint64_t b) {
// actually uint32_t would do, but the casting is annoying
uint64_t s0, s1, s2, s3;
uint64_t x = lo(a) * lo(b);
s0 = lo(x);
x = hi(a) * lo(b) + hi(x);
s1 = lo(x);
s2 = hi(x);
x = s1 + lo(a) * hi(b);
s1 = lo(x);
x = s2 + hi(a) * hi(b) + hi(x);
s2 = lo(x);
s3 = hi(x);
uint64_t result = s1 << 32 | s0;
uint64_t carry = s3 << 32 | s2;
}
部分和自体がどれもオーバーフローしないことを確認するために、最悪の場合を考えます。
x = s2 + hi(a) * hi(b) + hi(x)
B = 1 << 32
としましょう。それから
x <= (B - 1) + (B - 1)(B - 1) + (B - 1)
<= B*B - 1
< B*B
これはうまくいくと思います-少なくともSjlverのテストケースを処理します。それとは別に、それはテストされていません(もうC++コンパイラーを持っていないので、コンパイルさえできないかもしれません)。
考え方は、積分演算に当てはまる次の事実を使用することです。
a*b > c
if _ if if a > c/b
/
は、ここでは整数除算です。
正数のオーバーフローをチェックする擬似コードは次のとおりです。
if(a> max_int64/b)then "overflow" else "ok".
ゼロと負の数を処理するには、さらにチェックを追加する必要があります。
負でないa
およびb
のCコードは次のとおりです。
if (b > 0 && a > 18446744073709551615 / b) {
// overflow handling
}; else {
c = a * b;
}
注意:
18446744073709551615 == (1<<64)-1
桁上げを計算するには、アプローチを使用して、数値を2つの32桁に分割し、紙でこれを行うときに乗算します。オーバーフローを避けるために、数値を分割する必要があります。
コードは次のとおりです。
// split input numbers into 32-bit digits
uint64_t a0 = a & ((1LL<<32)-1);
uint64_t a1 = a >> 32;
uint64_t b0 = b & ((1LL<<32)-1);
uint64_t b1 = b >> 32;
// The following 3 lines of code is to calculate the carry of d1
// (d1 - 32-bit second digit of result, and it can be calculated as d1=d11+d12),
// but to avoid overflow.
// Actually rewriting the following 2 lines:
// uint64_t d1 = (a0 * b0 >> 32) + a1 * b0 + a0 * b1;
// uint64_t c1 = d1 >> 32;
uint64_t d11 = a1 * b0 + (a0 * b0 >> 32);
uint64_t d12 = a0 * b1;
uint64_t c1 = (d11 > 18446744073709551615 - d12) ? 1 : 0;
uint64_t d2 = a1 * b1 + c1;
uint64_t carry = d2; // needed carry stored here
この質問には他にもいくつかの回答がありますが、そのうちのいくつかには完全にテストされていないコードがあり、これまでのところ、可能なオプションを適切に比較した人はいません。
そのため、私はいくつかの可能な実装を書いてテストしました(最後の実装はOpenBSDの this code に基づいており、Reddit here で議論されています)。コードは次のとおりです。
/* Multiply with overflow checking, emulating clang's builtin function
*
* __builtin_umull_overflow
*
* This code benchmarks five possible schemes for doing so.
*/
#include <stddef.h>
#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
#include <limits.h>
#ifndef BOOL
#define BOOL int
#endif
// Option 1, check for overflow a wider type
// - Often fastest and the least code, especially on modern compilers
// - When long is a 64-bit int, requires compiler support for 128-bits
// ints (requires GCC >= 3.0 or Clang)
#if LONG_BIT > 32
typedef __uint128_t long_overflow_t ;
#else
typedef uint64_t long_overflow_t;
#endif
BOOL
umull_overflow1(unsigned long lhs, unsigned long rhs, unsigned long* result)
{
long_overflow_t prod = (long_overflow_t)lhs * (long_overflow_t)rhs;
*result = (unsigned long) prod;
return (prod >> LONG_BIT) != 0;
}
// Option 2, perform long multiplication using a smaller type
// - Sometimes the fastest (e.g., when mulitply on longs is a library
// call).
// - Performs at most three multiplies, and sometimes only performs one.
// - Highly portable code; works no matter how many bits unsigned long is
BOOL
umull_overflow2(unsigned long lhs, unsigned long rhs, unsigned long* result)
{
const unsigned long HALFSIZE_MAX = (1ul << LONG_BIT/2) - 1ul;
unsigned long lhs_high = lhs >> LONG_BIT/2;
unsigned long lhs_low = lhs & HALFSIZE_MAX;
unsigned long rhs_high = rhs >> LONG_BIT/2;
unsigned long rhs_low = rhs & HALFSIZE_MAX;
unsigned long bot_bits = lhs_low * rhs_low;
if (!(lhs_high || rhs_high)) {
*result = bot_bits;
return 0;
}
BOOL overflowed = lhs_high && rhs_high;
unsigned long mid_bits1 = lhs_low * rhs_high;
unsigned long mid_bits2 = lhs_high * rhs_low;
*result = bot_bits + ((mid_bits1+mid_bits2) << LONG_BIT/2);
return overflowed || *result < bot_bits
|| (mid_bits1 >> LONG_BIT/2) != 0
|| (mid_bits2 >> LONG_BIT/2) != 0;
}
// Option 3, perform long multiplication using a smaller type (this code is
// very similar to option 2, but calculates overflow using a different but
// equivalent method).
// - Sometimes the fastest (e.g., when mulitply on longs is a library
// call; clang likes this code).
// - Performs at most three multiplies, and sometimes only performs one.
// - Highly portable code; works no matter how many bits unsigned long is
BOOL
umull_overflow3(unsigned long lhs, unsigned long rhs, unsigned long* result)
{
const unsigned long HALFSIZE_MAX = (1ul << LONG_BIT/2) - 1ul;
unsigned long lhs_high = lhs >> LONG_BIT/2;
unsigned long lhs_low = lhs & HALFSIZE_MAX;
unsigned long rhs_high = rhs >> LONG_BIT/2;
unsigned long rhs_low = rhs & HALFSIZE_MAX;
unsigned long lowbits = lhs_low * rhs_low;
if (!(lhs_high || rhs_high)) {
*result = lowbits;
return 0;
}
BOOL overflowed = lhs_high && rhs_high;
unsigned long midbits1 = lhs_low * rhs_high;
unsigned long midbits2 = lhs_high * rhs_low;
unsigned long midbits = midbits1 + midbits2;
overflowed = overflowed || midbits < midbits1 || midbits > HALFSIZE_MAX;
unsigned long product = lowbits + (midbits << LONG_BIT/2);
overflowed = overflowed || product < lowbits;
*result = product;
return overflowed;
}
// Option 4, checks for overflow using division
// - Checks for overflow using division
// - Division is slow, especially if it is a library call
BOOL
umull_overflow4(unsigned long lhs, unsigned long rhs, unsigned long* result)
{
*result = lhs * rhs;
return rhs > 0 && (SIZE_MAX / rhs) < lhs;
}
// Option 5, checks for overflow using division
// - Checks for overflow using division
// - Avoids division when the numbers are "small enough" to trivially
// rule out overflow
// - Division is slow, especially if it is a library call
BOOL
umull_overflow5(unsigned long lhs, unsigned long rhs, unsigned long* result)
{
const unsigned long MUL_NO_OVERFLOW = (1ul << LONG_BIT/2) - 1ul;
*result = lhs * rhs;
return (lhs >= MUL_NO_OVERFLOW || rhs >= MUL_NO_OVERFLOW) &&
rhs > 0 && SIZE_MAX / rhs < lhs;
}
#ifndef umull_overflow
#define umull_overflow2
#endif
/*
* This benchmark code performs a multiply at all bit sizes,
* essentially assuming that sizes are logarithmically distributed.
*/
int main()
{
unsigned long i, j, k;
int count = 0;
unsigned long mult;
unsigned long total = 0;
for (k = 0; k < 0x40000000 / LONG_BIT / LONG_BIT; ++k)
for (i = 0; i != LONG_MAX; i = i*2+1)
for (j = 0; j != LONG_MAX; j = j*2+1) {
count += umull_overflow(i+k, j+k, &mult);
total += mult;
}
printf("%d overflows (total %lu)\n", count, total);
}
私が持っているさまざまなコンパイラとシステムでテストした結果は次のとおりです(この場合、すべてのテストはOS Xで行われましたが、結果はBSDまたはLinuxシステムでも同様です)。
+------------------+----------+----------+----------+----------+----------+
| | Option 1 | Option 2 | Option 3 | Option 4 | Option 5 |
| | BigInt | LngMult1 | LngMult2 | Div | OptDiv |
+------------------+----------+----------+----------+----------+----------+
| Clang 3.5 i386 | 1.610 | 3.217 | 3.129 | 4.405 | 4.398 |
| GCC 4.9.0 i386 | 1.488 | 3.469 | 5.853 | 4.704 | 4.712 |
| GCC 4.2.1 i386 | 2.842 | 4.022 | 3.629 | 4.160 | 4.696 |
| GCC 4.2.1 PPC32 | 8.227 | 7.756 | 7.242 | 20.632 | 20.481 |
| GCC 3.3 PPC32 | 5.684 | 9.804 | 11.525 | 21.734 | 22.517 |
+------------------+----------+----------+----------+----------+----------+
| Clang 3.5 x86_64 | 1.584 | 2.472 | 2.449 | 9.246 | 7.280 |
| GCC 4.9 x86_64 | 1.414 | 2.623 | 4.327 | 9.047 | 7.538 |
| GCC 4.2.1 x86_64 | 2.143 | 2.618 | 2.750 | 9.510 | 7.389 |
| GCC 4.2.1 PPC64 | 13.178 | 8.994 | 8.567 | 37.504 | 29.851 |
+------------------+----------+----------+----------+----------+----------+
これらの結果に基づいて、いくつかの結論を導き出すことができます。
== 0の場合にも機能するバージョン:
x = a * b;
if (a != 0 && x / a != b) {
// overflow handling
}
オーバーフローを検出するだけでなく、キャリーをキャプチャする必要がある場合は、数字を32ビットの部分に分解するのが最善です。コードは悪夢です。以下は単なるスケッチです。
#include <stdint.h>
uint64_t mul(uint64_t a, uint64_t b) {
uint32_t ah = a >> 32;
uint32_t al = a; // truncates: now a = al + 2**32 * ah
uint32_t bh = b >> 32;
uint32_t bl = b; // truncates: now b = bl + 2**32 * bh
// a * b = 2**64 * ah * bh + 2**32 * (ah * bl + bh * al) + al * bl
uint64_t partial = (uint64_t) al * (uint64_t) bl;
uint64_t mid1 = (uint64_t) ah * (uint64_t) bl;
uint64_t mid2 = (uint64_t) al * (uint64_t) bh;
uint64_t carry = (uint64_t) ah * (uint64_t) bh;
// add high parts of mid1 and mid2 to carry
// add low parts of mid1 and mid2 to partial, carrying
// any carry bits into carry...
}
問題は、部分積だけではなく、いずれかの合計がオーバーフローする可能性があるという事実です。
実際にこれを行う必要がある場合、ローカルアセンブリ言語で拡張乗算ルーチンを作成します。つまり、たとえば、2つの64ビット整数を乗算して128ビットの結果を取得します。 2つの64ビットレジスタに格納されます。すべての合理的なハードウェアは、単一のネイティブ乗算命令でこの機能を提供します。Cからアクセスできるだけではありません。
これは、最もエレガントで簡単にプログラミングできるソリューションが実際にアセンブリ言語を使用するというまれなケースの1つです。しかし、それは確かに移植性がありません:-(
おそらく、この問題を解決する最善の方法は、2つのUInt64を乗算し、UInt64の結果、UInt128の結果の上部と下部のペアを生成する関数を使用することです。結果を16進数で表示する関数を含むソリューションを次に示します。おそらくC++ソリューションを好むと思いますが、問題を管理する方法を示す実用的なSwift-Solutionがあります:
func hex128 (_ hi: UInt64, _ lo: UInt64) -> String
{
var s: String = String(format: "%08X", hi >> 32)
+ String(format: "%08X", hi & 0xFFFFFFFF)
+ String(format: "%08X", lo >> 32)
+ String(format: "%08X", lo & 0xFFFFFFFF)
return (s)
}
func mul64to128 (_ multiplier: UInt64, _ multiplicand : UInt64)
-> (result_hi: UInt64, result_lo: UInt64)
{
let x: UInt64 = multiplier
let x_lo: UInt64 = (x & 0xffffffff)
let x_hi: UInt64 = x >> 32
let y: UInt64 = multiplicand
let y_lo: UInt64 = (y & 0xffffffff)
let y_hi: UInt64 = y >> 32
let mul_lo: UInt64 = (x_lo * y_lo)
let mul_hi: UInt64 = (x_hi * y_lo) + (mul_lo >> 32)
let mul_carry: UInt64 = (x_lo * y_hi) + (mul_hi & 0xffffffff)
let result_hi: UInt64 = (x_hi * y_hi) + (mul_hi >> 32) + (mul_carry >> 32)
let result_lo: UInt64 = (mul_carry << 32) + (mul_lo & 0xffffffff)
return (result_hi, result_lo)
}
次に、関数が機能することを確認する例を示します。
var c: UInt64 = 0
var d: UInt64 = 0
(c, d) = mul64to128(0x1234567890123456, 0x9876543210987654)
// 0AD77D742CE3C72E45FD10D81D28D038 is the result of the above example
print(hex128(c, d))
(c, d) = mul64to128(0xFFFFFFFFFFFFFFFF, 0xFFFFFFFFFFFFFFFF)
// FFFFFFFFFFFFFFFE0000000000000001 is the result of the above example
print(hex128(c, d))
私は最近この問題に取り組んできましたが、オーバーフローがあったかどうかを知る最良の方法は、結果を除算することです、それは完全に非効率であり、不要。この関数のポイントは、可能な限り高速でなければならないということです。
オーバーフロー検出には2つのオプションがあります。
1º-可能な場合、乗数の2倍の結果変数を作成します。例:
struct INT32struct {INT16 high, low;};
typedef union
{
struct INT32struct s;
INT32 ll;
} INT32union;
INT16 mulFunction(INT16 a, INT16 b)
{
INT32union result.ll = a * b; //32Bits result
if(result.s.high > 0)
Overflow();
return (result.s.low)
}
オーバーフローが発生したかどうかをすぐに知ることができ、コードはマシンコードで記述することなく可能な限り高速です。コンパイラに応じて、このコードはマシンコードで改善できます。
2º-乗数変数の2倍の結果変数を作成することは不可能です。最適条件を判断するためにif条件で遊ぶ必要があります。例の続き:
INT32 mulFunction(INT32 a, INT32 b)
{
INT32union s_a.ll = abs(a);
INT32union s_b.ll = abs(b); //32Bits result
INT32union result;
if(s_a.s.hi > 0 && s_b.s.hi > 0)
{
Overflow();
}
else if (s_a.s.hi > 0)
{
INT32union res1.ll = s_a.s.hi * s_b.s.lo;
INT32union res2.ll = s_a.s.lo * s_b.s.lo;
if (res1.hi == 0)
{
result.s.lo = res1.s.lo + res2.s.hi;
if (result.s.hi == 0)
{
result.s.ll = result.s.lo << 16 + res2.s.lo;
if ((a.s.hi >> 15) ^ (b.s.hi >> 15) == 1)
{
result.s.ll = -result.s.ll;
}
return result.s.ll
}else
{
Overflow();
}
}else
{
Overflow();
}
}else if (s_b.s.hi > 0)
{
//Same code changing a with b
}else
{
return (s_a.lo * s_b.lo);
}
}
このコードが非常に効率的なプログラムを作成するのに役立つことを望みます。コードが明確でないことを願っています。
宜しくお願いします。
これは、2つの符号なし整数の乗算がオーバーフローするかどうかを検出するためのトリックです。
Nビット幅の2進数にMビット幅の2進数を掛けると、積はN + Mビットを超えないという観測を行います。
たとえば、3ビットの数値と29ビットの数値を乗算するように求められた場合、これはdoes n'tオーバーフロー32ビットであることがわかります。
#include <stdlib.h>
#include <stdio.h>
int might_be_mul_oflow(unsigned long a, unsigned long b)
{
if (!a || !b)
return 0;
a = a | (a >> 1) | (a >> 2) | (a >> 4) | (a >> 8) | (a >> 16) | (a >> 32);
b = b | (b >> 1) | (b >> 2) | (b >> 4) | (b >> 8) | (b >> 16) | (b >> 32);
for (;;) {
unsigned long na = a << 1;
if (na <= a)
break;
a = na;
}
return (a & b) ? 1 : 0;
}
int main(int argc, char **argv)
{
unsigned long a, b;
char *endptr;
if (argc < 3) {
printf("supply two unsigned long integers in C form\n");
return EXIT_FAILURE;
}
a = strtoul(argv[1], &endptr, 0);
if (*endptr != 0) {
printf("%s is garbage\n", argv[1]);
return EXIT_FAILURE;
}
b = strtoul(argv[2], &endptr, 0);
if (*endptr != 0) {
printf("%s is garbage\n", argv[2]);
return EXIT_FAILURE;
}
if (might_be_mul_oflow(a, b))
printf("might be multiplication overflow\n");
{
unsigned long c = a * b;
printf("%lu * %lu = %lu\n", a, b, c);
if (a != 0 && c / a != b)
printf("confirmed multiplication overflow\n");
}
return 0;
}
わずかなテスト:(64ビットシステムで):
$ ./uflow 0x3 0x3FFFFFFFFFFFFFFFFF 3 * 4611686018427387903 = 13835058055282163709 $ ./uflow 0x7 0x3FFFFFFFFFFFFFFF 乗算オーバーフロー[.____ .. ] 7 * 4611686018427387903 = 13835058055282163705 確認済み乗算オーバーフロー $ ./uflow 0x4 0x3FFFFFFFFFFFFFFFFF 4乗算オーバーフロー 4 * 4611686018427387903 = 18446744073709551212 .____。] $ ./uflow 0x5 0x3FFFFFFFFFFFFFFF 乗算オーバーフローかもしれません 5 * 4611686018427387903 = 4611686018427387899 確認済み乗算オーバーフロー
might_be_mul_oflow
の手順は、少なくともデスクトップワークステーション、サーバー、およびモバイルデバイスで使用される主流のプロセッサで、分割テストを行うよりもほぼ確実に遅くなります。良好な除算サポートのないチップでは、便利かもしれません。
私は、この早期拒絶テストを行う別の方法があると思います。
0x7FFF...FFFF
と1
に初期化されたarng
とbrng
のペアから始めます。
a <= arng
およびb <= brng
の場合、オーバーフローはないと結論付けることができます。
それ以外の場合は、arng
を右にシフトし、brng
を左にシフトし、brng
に1ビットを追加して、0x3FFF...FFFF
および3
。
arng
がゼロの場合、終了します。それ以外の場合は2で繰り返します。
関数は次のようになります。
int might_be_mul_oflow(unsigned long a, unsigned long b)
{
if (!a || !b)
return 0;
{
unsigned long arng = ULONG_MAX >> 1;
unsigned long brng = 1;
while (arng != 0) {
if (a <= arng && b <= brng)
return 0;
arng >>= 1;
brng <<= 1;
brng |= 1;
}
return 1;
}
}
オーバーフローを検出するだけの場合は、doubleに変換して乗算を行い、
| x | <2 ^ 53、int64に変換
| x | <2 ^ 63、int64を使用して乗算を行う
それ以外の場合は、必要なエラーを生成しますか?
これはうまくいくようです:
int64_t safemult(int64_t a, int64_t b) {
double dx;
dx = (double)a * (double)b;
if ( fabs(dx) < (double)9007199254740992 )
return (int64_t)dx;
if ( (double)INT64_MAX < fabs(dx) )
return INT64_MAX;
return a*b;
}
Clangとgccで簡単かつ高速に:
unsigned long long t a, b, result;
if (__builtin_umulll_overflow(a, b, &result)) {
// overflow!!
}
これは、可能な場合、オーバーフロー検出のハードウェアサポートを使用します。コンパイラの拡張機能であるため、C++では未定義の動作ですが、符号付き整数のオーバーフローも処理できます(umulをsmulに置き換えます)。