Context Navigation

sha256.c@ 473

Last change on this file since 473 was 167, checked in by coas-nagasima, 8 years ago
MIMEにSJISを設定
Property svn:eol-style set to `native` Property svn:keywords set to `Id` Property svn:mime-type set to `text/x-csrc; charset=SHIFT_JIS`
File size: 73.3 KB

Rev	Line
[164]	1	/* sha256.c
	2	*
	3	* Copyright (C) 2006-2015 wolfSSL Inc.
	4	*
	5	* This file is part of wolfSSL. (formerly known as CyaSSL)
	6	*
	7	* wolfSSL is free software; you can redistribute it and/or modify
	8	* it under the terms of the GNU General Public License as published by
	9	* the Free Software Foundation; either version 2 of the License, or
	10	* (at your option) any later version.
	11	*
	12	* wolfSSL is distributed in the hope that it will be useful,
	13	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	14	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
	15	* GNU General Public License for more details.
	16	*
	17	* You should have received a copy of the GNU General Public License
	18	* along with this program; if not, write to the Free Software
	19	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA
	20	*/
	21
	22	/* code submitted by raphael.huck@efixo.com */
	23
	24	#ifdef HAVE_CONFIG_H
	25	#include <config.h>
	26	#endif
	27
	28	#include <wolfssl/wolfcrypt/settings.h>
	29	#include <wolfssl/wolfcrypt/sha256.h>
	30
	31	#if !defined(NO_SHA256)
	32	#ifdef HAVE_FIPS
	33
	34	int wc_InitSha256(Sha256* sha)
	35	{
	36	return InitSha256_fips(sha);
	37	}
	38
	39
	40	int wc_Sha256Update(Sha256* sha, const byte* data, word32 len)
	41	{
	42	return Sha256Update_fips(sha, data, len);
	43	}
	44
	45
	46	int wc_Sha256Final(Sha256* sha, byte* out)
	47	{
	48	return Sha256Final_fips(sha, out);
	49	}
	50
	51
	52	#else /* else build without fips */
	53
	54	#if !defined(NO_SHA256) && defined(WOLFSSL_TI_HASH)
	55	/* #include <wolfcrypt/src/port/ti/ti-hash.c> included by wc_port.c */
	56	#else
	57
	58	#if !defined (ALIGN32)
	59	#if defined (__GNUC__)
	60	#define ALIGN32 __attribute__ ( (aligned (32)))
	61	#elif defined(_MSC_VER)
	62	/* disable align warning, we want alignment ! */
	63	#pragma warning(disable: 4324)
	64	#define ALIGN32 __declspec (align (32))
	65	#else
	66	#define ALIGN32
	67	#endif
	68	#endif
	69
	70	#ifdef WOLFSSL_PIC32MZ_HASH
	71	#define wc_InitSha256 wc_InitSha256_sw
	72	#define wc_Sha256Update wc_Sha256Update_sw
	73	#define wc_Sha256Final wc_Sha256Final_sw
	74	#endif
	75
	76	#ifdef HAVE_FIPS
	77	/* set NO_WRAPPERS before headers, use direct internal f()s not wrappers */
	78	#define FIPS_NO_WRAPPERS
	79	#endif
	80
	81	#if defined(USE_INTEL_SPEEDUP)
	82	#define HAVE_INTEL_AVX1
	83	#define HAVE_INTEL_AVX2
	84
	85	#if defined(DEBUG_XMM)
	86	#include "stdio.h"
	87	#endif
	88
	89	#endif
	90
	91	#if defined(HAVE_INTEL_AVX2)
	92	#define HAVE_INTEL_RORX
	93	#endif
	94
	95
	96	/*****
	97	Intel AVX1/AVX2 Macro Control Structure
	98
	99	#define HAVE_INTEL_AVX1
	100	#define HAVE_INTEL_AVX2
	101
	102	#define HAVE_INTEL_RORX
	103
	104
	105	int InitSha256(Sha256* sha256) {
	106	Save/Recover XMM, YMM
	107	...
	108	}
	109
	110	#if defined(HAVE_INTEL_AVX1)\|\| defined(HAVE_INTEL_AVX2)
	111	Transform() ; Function prototype
	112	#else
	113	Transform() { }
	114	int Sha256Final() {
	115	Save/Recover XMM, YMM
	116	...
	117	}
	118	#endif
	119
	120	#if defined(HAVE_INTEL_AVX1)\|\| defined(HAVE_INTEL_AVX2)
	121	#if defined(HAVE_INTEL_RORX
	122	#define RND with rorx instuction
	123	#else
	124	#define RND
	125	#endif
	126	#endif
	127
	128	#if defined(HAVE_INTEL_AVX1)
	129
	130	#define XMM Instructions/inline asm
	131
	132	int Transform() {
	133	Stitched Message Sched/Round
	134	}
	135
	136	#elif defined(HAVE_INTEL_AVX2)
	137
	138	#define YMM Instructions/inline asm
	139
	140	int Transform() {
	141	More granural Stitched Message Sched/Round
	142	}
	143
	144	*/
	145
	146
	147	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
	148
	149	/* Each platform needs to query info type 1 from cpuid to see if aesni is
	150	* supported. Also, let's setup a macro for proper linkage w/o ABI conflicts
	151	*/
	152
	153	#ifndef _MSC_VER
	154	#define cpuid(reg, leaf, sub)\
	155	__asm__ __volatile__ ("cpuid":\
	156	"=a" (reg[0]), "=b" (reg[1]), "=c" (reg[2]), "=d" (reg[3]) :\
	157	"a" (leaf), "c"(sub));
	158
	159	#define XASM_LINK(f) asm(f)
	160	#else
	161
	162	#include <intrin.h>
	163	#define cpuid(a,b) __cpuid((int*)a,b)
	164
	165	#define XASM_LINK(f)
	166
	167	#endif /* _MSC_VER */
	168
	169	#define EAX 0
	170	#define EBX 1
	171	#define ECX 2
	172	#define EDX 3
	173
	174	#define CPUID_AVX1 0x1
	175	#define CPUID_AVX2 0x2
	176	#define CPUID_RDRAND 0x4
	177	#define CPUID_RDSEED 0x8
	178	#define CPUID_BMI2 0x10 /* MULX, RORX */
	179
	180	#define IS_INTEL_AVX1 (cpuid_flags&CPUID_AVX1)
	181	#define IS_INTEL_AVX2 (cpuid_flags&CPUID_AVX2)
	182	#define IS_INTEL_BMI2 (cpuid_flags&CPUID_BMI2)
	183	#define IS_INTEL_RDRAND (cpuid_flags&CPUID_RDRAND)
	184	#define IS_INTEL_RDSEED (cpuid_flags&CPUID_RDSEED)
	185
	186	static word32 cpuid_check = 0 ;
	187	static word32 cpuid_flags = 0 ;
	188
	189	static word32 cpuid_flag(word32 leaf, word32 sub, word32 num, word32 bit) {
	190	int got_intel_cpu=0;
	191	unsigned int reg[5];
	192
	193	reg[4] = '\0' ;
	194	cpuid(reg, 0, 0);
	195	if(memcmp((char *)&(reg[EBX]), "Genu", 4) == 0 &&
	196	memcmp((char *)&(reg[EDX]), "ineI", 4) == 0 &&
	197	memcmp((char *)&(reg[ECX]), "ntel", 4) == 0) {
	198	got_intel_cpu = 1;
	199	}
	200	if (got_intel_cpu) {
	201	cpuid(reg, leaf, sub);
	202	return((reg[num]>>bit)&0x1) ;
	203	}
	204	return 0 ;
	205	}
	206
	207	static int set_cpuid_flags(void) {
	208	if(cpuid_check==0) {
	209	if(cpuid_flag(1, 0, ECX, 28)){ cpuid_flags \|= CPUID_AVX1 ;}
	210	if(cpuid_flag(7, 0, EBX, 5)){ cpuid_flags \|= CPUID_AVX2 ; }
	211	if(cpuid_flag(7, 0, EBX, 8)) { cpuid_flags \|= CPUID_BMI2 ; }
	212	if(cpuid_flag(1, 0, ECX, 30)){ cpuid_flags \|= CPUID_RDRAND ; }
	213	if(cpuid_flag(7, 0, EBX, 18)){ cpuid_flags \|= CPUID_RDSEED ; }
	214	cpuid_check = 1 ;
	215	return 0 ;
	216	}
	217	return 1 ;
	218	}
	219
	220
	221	/* #if defined(HAVE_INTEL_AVX1/2) at the tail of sha512 */
	222	static int Transform(Sha256* sha256);
	223
	224	#if defined(HAVE_INTEL_AVX1)
	225	static int Transform_AVX1(Sha256 *sha256) ;
	226	#endif
	227	#if defined(HAVE_INTEL_AVX2)
	228	static int Transform_AVX2(Sha256 *sha256) ;
	229	static int Transform_AVX1_RORX(Sha256 *sha256) ;
	230	#endif
	231
	232	static int (Transform_p)(Sha256 sha256) /* = _Transform */;
	233
	234	#define XTRANSFORM(sha256, B) (*Transform_p)(sha256)
	235
	236	static void set_Transform(void) {
	237	if(set_cpuid_flags())return ;
	238
	239	#if defined(HAVE_INTEL_AVX2)
	240	if(IS_INTEL_AVX2 && IS_INTEL_BMI2){
	241	Transform_p = Transform_AVX1_RORX; return ;
	242	Transform_p = Transform_AVX2 ;
	243	/* for avoiding warning,"not used" */
	244	}
	245	#endif
	246	#if defined(HAVE_INTEL_AVX1)
	247	Transform_p = ((IS_INTEL_AVX1) ? Transform_AVX1 : Transform) ; return ;
	248	#endif
	249	Transform_p = Transform ; return ;
	250	}
	251
	252	#else
	253	#if defined(FREESCALE_MMCAU)
	254	#define XTRANSFORM(sha256, B) Transform(sha256, B)
	255	#else
	256	#define XTRANSFORM(sha256, B) Transform(sha256)
	257	#endif
	258	#endif
	259
	260	/* Dummy for saving MM_REGs on behalf of Transform */
	261	#if defined(HAVE_INTEL_AVX2)&& !defined(HAVE_INTEL_AVX1)
	262	#define SAVE_XMM_YMM __asm__ volatile("or %%r8d, %%r8d":::\
	263	"%ymm4","%ymm5","%ymm6","%ymm7","%ymm8","%ymm9","%ymm10","%ymm11","%ymm12","%ymm13","%ymm14","%ymm15")
	264	#elif defined(HAVE_INTEL_AVX1)
	265	#define SAVE_XMM_YMM __asm__ volatile("or %%r8d, %%r8d":::\
	266	"xmm0","xmm1","xmm2","xmm3","xmm4","xmm5","xmm6","xmm7","xmm8","xmm9","xmm10",\
	267	"xmm11","xmm12","xmm13","xmm14","xmm15")
	268	#else
	269	#define SAVE_XMM_YMM
	270	#endif
	271
	272	#ifdef WOLFSSL_PIC32MZ_HASH
	273	#define InitSha256 InitSha256_sw
	274	#define Sha256Update Sha256Update_sw
	275	#define Sha256Final Sha256Final_sw
	276	#endif
	277
	278	#include <wolfssl/wolfcrypt/logging.h>
	279	#include <wolfssl/wolfcrypt/error-crypt.h>
	280
	281	#ifdef NO_INLINE
	282	#include <wolfssl/wolfcrypt/misc.h>
	283	#else
	284	#include <wolfcrypt/src/misc.c>
	285	#endif
	286
	287	#ifdef FREESCALE_MMCAU
	288	#include "cau_api.h"
	289	#endif
	290
	291	#ifdef min
	292	#define WOLFSSL_HAVE_MIN
	293	#endif
	294	#ifndef WOLFSSL_HAVE_MIN
	295	#define WOLFSSL_HAVE_MIN
	296
	297	static INLINE word32 min(word32 a, word32 b)
	298	{
	299	return a > b ? b : a;
	300	}
	301
	302	#endif /* WOLFSSL_HAVE_MIN */
	303
	304
	305	int wc_InitSha256(Sha256* sha256)
	306	{
	307	int ret = 0;
	308	#ifdef FREESCALE_MMCAU
	309	ret = wolfSSL_CryptHwMutexLock();
	310	if(ret != 0) {
	311	return ret;
	312	}
	313	cau_sha256_initialize_output(sha256->digest);
	314	wolfSSL_CryptHwMutexUnLock();
	315	#else
	316	sha256->digest[0] = 0x6A09E667L;
	317	sha256->digest[1] = 0xBB67AE85L;
	318	sha256->digest[2] = 0x3C6EF372L;
	319	sha256->digest[3] = 0xA54FF53AL;
	320	sha256->digest[4] = 0x510E527FL;
	321	sha256->digest[5] = 0x9B05688CL;
	322	sha256->digest[6] = 0x1F83D9ABL;
	323	sha256->digest[7] = 0x5BE0CD19L;
	324	#endif
	325
	326	sha256->buffLen = 0;
	327	sha256->loLen = 0;
	328	sha256->hiLen = 0;
	329
	330	#if defined(HAVE_INTEL_AVX1)\|\| defined(HAVE_INTEL_AVX2)
	331	set_Transform() ; /* choose best Transform function under this runtime environment */
	332	#endif
	333
	334	return ret;
	335	}
	336
	337
	338	#if !defined(FREESCALE_MMCAU)
	339	static const ALIGN32 word32 K[64] = {
	340	0x428A2F98L, 0x71374491L, 0xB5C0FBCFL, 0xE9B5DBA5L, 0x3956C25BL,
	341	0x59F111F1L, 0x923F82A4L, 0xAB1C5ED5L, 0xD807AA98L, 0x12835B01L,
	342	0x243185BEL, 0x550C7DC3L, 0x72BE5D74L, 0x80DEB1FEL, 0x9BDC06A7L,
	343	0xC19BF174L, 0xE49B69C1L, 0xEFBE4786L, 0x0FC19DC6L, 0x240CA1CCL,
	344	0x2DE92C6FL, 0x4A7484AAL, 0x5CB0A9DCL, 0x76F988DAL, 0x983E5152L,
	345	0xA831C66DL, 0xB00327C8L, 0xBF597FC7L, 0xC6E00BF3L, 0xD5A79147L,
	346	0x06CA6351L, 0x14292967L, 0x27B70A85L, 0x2E1B2138L, 0x4D2C6DFCL,
	347	0x53380D13L, 0x650A7354L, 0x766A0ABBL, 0x81C2C92EL, 0x92722C85L,
	348	0xA2BFE8A1L, 0xA81A664BL, 0xC24B8B70L, 0xC76C51A3L, 0xD192E819L,
	349	0xD6990624L, 0xF40E3585L, 0x106AA070L, 0x19A4C116L, 0x1E376C08L,
	350	0x2748774CL, 0x34B0BCB5L, 0x391C0CB3L, 0x4ED8AA4AL, 0x5B9CCA4FL,
	351	0x682E6FF3L, 0x748F82EEL, 0x78A5636FL, 0x84C87814L, 0x8CC70208L,
	352	0x90BEFFFAL, 0xA4506CEBL, 0xBEF9A3F7L, 0xC67178F2L
	353	};
	354
	355	#endif
	356
	357	#if defined(FREESCALE_MMCAU)
	358
	359	static int Transform(Sha256* sha256, byte* buf)
	360	{
	361	int ret = wolfSSL_CryptHwMutexLock();
	362	if(ret == 0) {
	363	cau_sha256_hash_n(buf, 1, sha256->digest);
	364	wolfSSL_CryptHwMutexUnLock();
	365	}
	366	return ret;
	367	}
	368
	369	#endif /* FREESCALE_MMCAU */
	370
	371	#define Ch(x,y,z) ((z) ^ ((x) & ((y) ^ (z))))
	372	#define Maj(x,y,z) ((((x) \| (y)) & (z)) \| ((x) & (y)))
	373	#define R(x, n) (((x)&0xFFFFFFFFU)>>(n))
	374
	375	#define S(x, n) rotrFixed(x, n)
	376	#define Sigma0(x) (S(x, 2) ^ S(x, 13) ^ S(x, 22))
	377	#define Sigma1(x) (S(x, 6) ^ S(x, 11) ^ S(x, 25))
	378	#define Gamma0(x) (S(x, 7) ^ S(x, 18) ^ R(x, 3))
	379	#define Gamma1(x) (S(x, 17) ^ S(x, 19) ^ R(x, 10))
	380
	381	#define RND(a,b,c,d,e,f,g,h,i) \
	382	t0 = (h) + Sigma1((e)) + Ch((e), (f), (g)) + K[(i)] + W[(i)]; \
	383	t1 = Sigma0((a)) + Maj((a), (b), (c)); \
	384	(d) += t0; \
	385	(h) = t0 + t1;
	386
	387	#if !defined(FREESCALE_MMCAU)
	388	static int Transform(Sha256* sha256)
	389	{
	390	word32 S[8], t0, t1;
	391	int i;
	392
	393	#ifdef WOLFSSL_SMALL_STACK
	394	word32* W;
	395
	396	W = (word32) XMALLOC(sizeof(word32) 64, NULL, DYNAMIC_TYPE_TMP_BUFFER);
	397	if (W == NULL)
	398	return MEMORY_E;
	399	#else
	400	word32 W[64];
	401	#endif
	402
	403	/* Copy context->state[] to working vars */
	404	for (i = 0; i < 8; i++)
	405	S[i] = sha256->digest[i];
	406
	407	for (i = 0; i < 16; i++)
	408	W[i] = sha256->buffer[i];
	409
	410	for (i = 16; i < 64; i++)
	411	W[i] = Gamma1(W[i-2]) + W[i-7] + Gamma0(W[i-15]) + W[i-16];
	412
	413	for (i = 0; i < 64; i += 8) {
	414	RND(S[0],S[1],S[2],S[3],S[4],S[5],S[6],S[7],i+0);
	415	RND(S[7],S[0],S[1],S[2],S[3],S[4],S[5],S[6],i+1);
	416	RND(S[6],S[7],S[0],S[1],S[2],S[3],S[4],S[5],i+2);
	417	RND(S[5],S[6],S[7],S[0],S[1],S[2],S[3],S[4],i+3);
	418	RND(S[4],S[5],S[6],S[7],S[0],S[1],S[2],S[3],i+4);
	419	RND(S[3],S[4],S[5],S[6],S[7],S[0],S[1],S[2],i+5);
	420	RND(S[2],S[3],S[4],S[5],S[6],S[7],S[0],S[1],i+6);
	421	RND(S[1],S[2],S[3],S[4],S[5],S[6],S[7],S[0],i+7);
	422	}
	423
	424	/* Add the working vars back into digest state[] */
	425	for (i = 0; i < 8; i++) {
	426	sha256->digest[i] += S[i];
	427	}
	428
	429	#ifdef WOLFSSL_SMALL_STACK
	430	XFREE(W, NULL, DYNAMIC_TYPE_TMP_BUFFER);
	431	#endif
	432
	433	return 0;
	434	}
	435
	436	#endif /* #if !defined(FREESCALE_MMCAU) */
	437
	438	static INLINE void AddLength(Sha256* sha256, word32 len)
	439	{
	440	word32 tmp = sha256->loLen;
	441	if ( (sha256->loLen += len) < tmp)
	442	sha256->hiLen++; /* carry low to high */
	443	}
	444
	445	int wc_Sha256Update(Sha256* sha256, const byte* data, word32 len)
	446	{
	447
	448	/* do block size increments */
	449	byte* local = (byte*)sha256->buffer;
	450
	451	SAVE_XMM_YMM ; /* for Intel AVX */
	452
	453	while (len) {
	454	word32 add = min(len, SHA256_BLOCK_SIZE - sha256->buffLen);
	455	XMEMCPY(&local[sha256->buffLen], data, add);
	456
	457	sha256->buffLen += add;
	458	data += add;
	459	len -= add;
	460
	461	if (sha256->buffLen == SHA256_BLOCK_SIZE) {
	462	int ret;
	463
	464	#if defined(LITTLE_ENDIAN_ORDER) && !defined(FREESCALE_MMCAU)
	465	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
	466	if(!IS_INTEL_AVX1 && !IS_INTEL_AVX2)
	467	#endif
	468	ByteReverseWords(sha256->buffer, sha256->buffer,
	469	SHA256_BLOCK_SIZE);
	470	#endif
	471	ret = XTRANSFORM(sha256, local);
	472	if (ret != 0)
	473	return ret;
	474
	475	AddLength(sha256, SHA256_BLOCK_SIZE);
	476	sha256->buffLen = 0;
	477	}
	478	}
	479
	480	return 0;
	481	}
	482
	483	int wc_Sha256Final(Sha256* sha256, byte* hash)
	484	{
	485	byte* local = (byte*)sha256->buffer;
	486	int ret;
	487
	488	SAVE_XMM_YMM ; /* for Intel AVX */
	489
	490	AddLength(sha256, sha256->buffLen); /* before adding pads */
	491
	492	local[sha256->buffLen++] = 0x80; /* add 1 */
	493
	494	/* pad with zeros */
	495	if (sha256->buffLen > SHA256_PAD_SIZE) {
	496	XMEMSET(&local[sha256->buffLen], 0, SHA256_BLOCK_SIZE - sha256->buffLen);
	497	sha256->buffLen += SHA256_BLOCK_SIZE - sha256->buffLen;
	498
	499	#if defined(LITTLE_ENDIAN_ORDER) && !defined(FREESCALE_MMCAU)
	500	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
	501	if(!IS_INTEL_AVX1 && !IS_INTEL_AVX2)
	502	#endif
	503	ByteReverseWords(sha256->buffer, sha256->buffer, SHA256_BLOCK_SIZE);
	504	#endif
	505
	506	ret = XTRANSFORM(sha256, local);
	507	if (ret != 0)
	508	return ret;
	509
	510	sha256->buffLen = 0;
	511	}
	512	XMEMSET(&local[sha256->buffLen], 0, SHA256_PAD_SIZE - sha256->buffLen);
	513
	514	/* put lengths in bits */
	515	sha256->hiLen = (sha256->loLen >> (8*sizeof(sha256->loLen) - 3)) +
	516	(sha256->hiLen << 3);
	517	sha256->loLen = sha256->loLen << 3;
	518
	519	/* store lengths */
	520	#if defined(LITTLE_ENDIAN_ORDER) && !defined(FREESCALE_MMCAU)
	521	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
	522	if(!IS_INTEL_AVX1 && !IS_INTEL_AVX2)
	523	#endif
	524	ByteReverseWords(sha256->buffer, sha256->buffer, SHA256_BLOCK_SIZE);
	525	#endif
	526	/* ! length ordering dependent on digest endian type ! */
	527	XMEMCPY(&local[SHA256_PAD_SIZE], &sha256->hiLen, sizeof(word32));
	528	XMEMCPY(&local[SHA256_PAD_SIZE + sizeof(word32)], &sha256->loLen,
	529	sizeof(word32));
	530
	531	#if defined(FREESCALE_MMCAU) \|\| defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
	532	/* Kinetis requires only these bytes reversed */
	533	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
	534	if(IS_INTEL_AVX1 \|\| IS_INTEL_AVX2)
	535	#endif
	536	ByteReverseWords(&sha256->buffer[SHA256_PAD_SIZE/sizeof(word32)],
	537	&sha256->buffer[SHA256_PAD_SIZE/sizeof(word32)],
	538	2 * sizeof(word32));
	539	#endif
	540
	541	ret = XTRANSFORM(sha256, local);
	542	if (ret != 0)
	543	return ret;
	544
	545	#if defined(LITTLE_ENDIAN_ORDER)
	546	ByteReverseWords(sha256->digest, sha256->digest, SHA256_DIGEST_SIZE);
	547	#endif
	548	XMEMCPY(hash, sha256->digest, SHA256_DIGEST_SIZE);
	549
	550	return wc_InitSha256(sha256); /* reset state */
	551	}
	552
	553
	554
	555
	556	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
	557
	558	#define _DigestToReg(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	559	{ word32 d ;\
	560	d = sha256->digest[0]; __asm__ volatile("movl %0, %"#S_0::"r"(d):SSE_REGs) ;\
	561	d = sha256->digest[1]; __asm__ volatile("movl %0, %"#S_1::"r"(d):SSE_REGs) ;\
	562	d = sha256->digest[2]; __asm__ volatile("movl %0, %"#S_2::"r"(d):SSE_REGs) ;\
	563	d = sha256->digest[3]; __asm__ volatile("movl %0, %"#S_3::"r"(d):SSE_REGs) ;\
	564	d = sha256->digest[4]; __asm__ volatile("movl %0, %"#S_4::"r"(d):SSE_REGs) ;\
	565	d = sha256->digest[5]; __asm__ volatile("movl %0, %"#S_5::"r"(d):SSE_REGs) ;\
	566	d = sha256->digest[6]; __asm__ volatile("movl %0, %"#S_6::"r"(d):SSE_REGs) ;\
	567	d = sha256->digest[7]; __asm__ volatile("movl %0, %"#S_7::"r"(d):SSE_REGs) ;\
	568	}
	569
	570	#define _RegToDigest(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	571	{ word32 d ; \
	572	__asm__ volatile("movl %"#S_0", %0":"=r"(d)::SSE_REGs) ; sha256->digest[0] += d;\
	573	__asm__ volatile("movl %"#S_1", %0":"=r"(d)::SSE_REGs) ; sha256->digest[1] += d;\
	574	__asm__ volatile("movl %"#S_2", %0":"=r"(d)::SSE_REGs) ; sha256->digest[2] += d;\
	575	__asm__ volatile("movl %"#S_3", %0":"=r"(d)::SSE_REGs) ; sha256->digest[3] += d;\
	576	__asm__ volatile("movl %"#S_4", %0":"=r"(d)::SSE_REGs) ; sha256->digest[4] += d;\
	577	__asm__ volatile("movl %"#S_5", %0":"=r"(d)::SSE_REGs) ; sha256->digest[5] += d;\
	578	__asm__ volatile("movl %"#S_6", %0":"=r"(d)::SSE_REGs) ; sha256->digest[6] += d;\
	579	__asm__ volatile("movl %"#S_7", %0":"=r"(d)::SSE_REGs) ; sha256->digest[7] += d;\
	580	}
	581
	582
	583	#define DigestToReg(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	584	_DigestToReg(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )
	585
	586	#define RegToDigest(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	587	_RegToDigest(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )
	588
	589
	590
	591
	592	#define S_0 %r15d
	593	#define S_1 %r10d
	594	#define S_2 %r11d
	595	#define S_3 %r12d
	596	#define S_4 %r13d
	597	#define S_5 %r14d
	598	#define S_6 %ebx
	599	#define S_7 %r9d
	600
	601	#define SSE_REGs "%edi", "%ecx", "%esi", "%edx", "%ebx","%r8","%r9","%r10","%r11","%r12","%r13","%r14","%r15"
	602
	603	#if defined(HAVE_INTEL_RORX)
	604	#define RND_STEP_RORX_1(a,b,c,d,e,f,g,h,i)\
	605	__asm__ volatile("rorx $6, %"#e", %%edx\n\t":::"%edx",SSE_REGs); /* edx = e>>6 */\
	606
	607	#define RND_STEP_RORX_2(a,b,c,d,e,f,g,h,i)\
	608	__asm__ volatile("rorx $11, %"#e",%%edi\n\t":::"%edi",SSE_REGs); /* edi = e>>11 */\
	609	__asm__ volatile("xorl %%edx, %%edi\n\t":::"%edx","%edi",SSE_REGs); /* edi = (e>>11) ^ (e>>6) */\
	610	__asm__ volatile("rorx $25, %"#e", %%edx\n\t":::"%edx",SSE_REGs); /* edx = e>>25 */\
	611
	612	#define RND_STEP_RORX_3(a,b,c,d,e,f,g,h,i)\
	613	__asm__ volatile("movl %"#f", %%esi\n\t":::"%esi",SSE_REGs); /* esi = f */\
	614	__asm__ volatile("xorl %"#g", %%esi\n\t":::"%esi",SSE_REGs); /* esi = f ^ g */\
	615	__asm__ volatile("xorl %%edi, %%edx\n\t":::"%edi","%edx",SSE_REGs); /* edx = Sigma1(e) */\
	616	__asm__ volatile("andl %"#e", %%esi\n\t":::"%esi",SSE_REGs); /* esi = (f ^ g) & e */\
	617	__asm__ volatile("xorl %"#g", %%esi\n\t":::"%esi",SSE_REGs); /* esi = Ch(e,f,g) */\
	618
	619	#define RND_STEP_RORX_4(a,b,c,d,e,f,g,h,i)\
	620	/__asm__ volatile("movl %0, %%edx\n\t"::"m"(w_k):"%edx");/\
	621	__asm__ volatile("addl %0, %"#h"\n\t"::"r"(W_K[i]):SSE_REGs); /* h += w_k */\
	622	__asm__ volatile("addl %%edx, %"#h"\n\t":::"%edx",SSE_REGs); /* h = h + w_k + Sigma1(e) */\
	623	__asm__ volatile("rorx $2, %"#a", %%r8d\n\t":::"%r8",SSE_REGs); /* r8d = a>>2 */\
	624	__asm__ volatile("rorx $13, %"#a", %%edi\n\t":::"%edi",SSE_REGs);/* edi = a>>13 */\
	625
	626	#define RND_STEP_RORX_5(a,b,c,d,e,f,g,h,i)\
	627	__asm__ volatile("rorx $22, %"#a", %%edx\n\t":::"%edx",SSE_REGs); /* edx = a>>22 */\
	628	__asm__ volatile("xorl %%r8d, %%edi\n\t":::"%edi","%r8",SSE_REGs);/* edi = (a>>2) ^ (a>>13) */\
	629	__asm__ volatile("xorl %%edi, %%edx\n\t":::"%edi","%edx",SSE_REGs); /* edx = Sigma0(a) */\
	630
	631	#define RND_STEP_RORX_6(a,b,c,d,e,f,g,h,i)\
	632	__asm__ volatile("movl %"#b", %%edi\n\t":::"%edi",SSE_REGs); /* edi = b */\
	633	__asm__ volatile("orl %"#a", %%edi\n\t":::"%edi",SSE_REGs); /* edi = a \| b */\
	634	__asm__ volatile("andl %"#c", %%edi\n\t":::"%edi",SSE_REGs); /* edi = (a \| b) & c*/\
	635	__asm__ volatile("movl %"#b", %%r8d\n\t":::"%r8",SSE_REGs); /* r8d = b */\
	636
	637	#define RND_STEP_RORX_7(a,b,c,d,e,f,g,h,i)\
	638	__asm__ volatile("addl %%esi, %"#h"\n\t":::"%esi",SSE_REGs); /* h += Ch(e,f,g) */\
	639	__asm__ volatile("andl %"#a", %%r8d\n\t":::"%r8",SSE_REGs); /* r8d = b & a */\
	640	__asm__ volatile("orl %%edi, %%r8d\n\t":::"%edi","%r8",SSE_REGs); /* r8d = Maj(a,b,c) */\
	641
	642	#define RND_STEP_RORX_8(a,b,c,d,e,f,g,h,i)\
	643	__asm__ volatile("addl "#h", "#d"\n\t"); /* d += h + w_k + Sigma1(e) + Ch(e,f,g) */\
	644	__asm__ volatile("addl %"#h", %%r8d\n\t":::"%r8",SSE_REGs); \
	645	__asm__ volatile("addl %%edx, %%r8d\n\t":::"%edx","%r8",SSE_REGs); \
	646	__asm__ volatile("movl %r8d, "#h"\n\t");
	647
	648	#endif
	649
	650	#define RND_STEP_1(a,b,c,d,e,f,g,h,i)\
	651	__asm__ volatile("movl %"#e", %%edx\n\t":::"%edx",SSE_REGs);\
	652	__asm__ volatile("roll $26, %%edx\n\t":::"%edx",SSE_REGs); /* edx = e>>6 */\
	653	__asm__ volatile("movl %"#e", %%edi\n\t":::"%edi",SSE_REGs);\
	654
	655	#define RND_STEP_2(a,b,c,d,e,f,g,h,i)\
	656	__asm__ volatile("roll $21, %%edi\n\t":::"%edi",SSE_REGs); /* edi = e>>11 */\
	657	__asm__ volatile("xorl %%edx, %%edi\n\t":::"%edx","%edi",SSE_REGs); /* edi = (e>>11) ^ (e>>6) */\
	658	__asm__ volatile("movl %"#e", %%edx\n\t":::"%edx",SSE_REGs); /* edx = e */\
	659	__asm__ volatile("roll $7, %%edx\n\t":::"%edx",SSE_REGs); /* edx = e>>25 */\
	660
	661	#define RND_STEP_3(a,b,c,d,e,f,g,h,i)\
	662	__asm__ volatile("movl %"#f", %%esi\n\t":::"%esi",SSE_REGs); /* esi = f */\
	663	__asm__ volatile("xorl %"#g", %%esi\n\t":::"%esi",SSE_REGs); /* esi = f ^ g */\
	664	__asm__ volatile("xorl %%edi, %%edx\n\t":::"%edi","%edx",SSE_REGs); /* edx = Sigma1(e) */\
	665	__asm__ volatile("andl %"#e", %%esi\n\t":::"%esi",SSE_REGs); /* esi = (f ^ g) & e */\
	666	__asm__ volatile("xorl %"#g", %%esi\n\t":::"%esi",SSE_REGs); /* esi = Ch(e,f,g) */\
	667
	668	#define RND_STEP_4(a,b,c,d,e,f,g,h,i)\
	669	__asm__ volatile("addl %0, %"#h"\n\t"::"r"(W_K[i]):SSE_REGs); /* h += w_k */\
	670	__asm__ volatile("addl %%edx, %"#h"\n\t":::"%edx",SSE_REGs); /* h = h + w_k + Sigma1(e) */\
	671	__asm__ volatile("movl %"#a", %%r8d\n\t":::"%r8",SSE_REGs); /* r8d = a */\
	672	__asm__ volatile("roll $30, %%r8d\n\t":::"%r8",SSE_REGs); /* r8d = a>>2 */\
	673	__asm__ volatile("movl %"#a", %%edi\n\t":::"%edi",SSE_REGs); /* edi = a */\
	674	__asm__ volatile("roll $19, %%edi\n\t":::"%edi",SSE_REGs); /* edi = a>>13 */\
	675	__asm__ volatile("movl %"#a", %%edx\n\t":::"%edx",SSE_REGs); /* edx = a */\
	676
	677	#define RND_STEP_5(a,b,c,d,e,f,g,h,i)\
	678	__asm__ volatile("roll $10, %%edx\n\t":::"%edx",SSE_REGs); /* edx = a>>22 */\
	679	__asm__ volatile("xorl %%r8d, %%edi\n\t":::"%edi","%r8",SSE_REGs); /* edi = (a>>2) ^ (a>>13) */\
	680	__asm__ volatile("xorl %%edi, %%edx\n\t":::"%edi","%edx",SSE_REGs);/* edx = Sigma0(a) */\
	681
	682	#define RND_STEP_6(a,b,c,d,e,f,g,h,i)\
	683	__asm__ volatile("movl %"#b", %%edi\n\t":::"%edi",SSE_REGs); /* edi = b */\
	684	__asm__ volatile("orl %"#a", %%edi\n\t":::"%edi",SSE_REGs); /* edi = a \| b */\
	685	__asm__ volatile("andl %"#c", %%edi\n\t":::"%edi",SSE_REGs); /* edi = (a \| b) & c */\
	686	__asm__ volatile("movl %"#b", %%r8d\n\t":::"%r8",SSE_REGs); /* r8d = b */\
	687
	688	#define RND_STEP_7(a,b,c,d,e,f,g,h,i)\
	689	__asm__ volatile("addl %%esi, %"#h"\n\t":::"%esi",SSE_REGs); /* h += Ch(e,f,g) */\
	690	__asm__ volatile("andl %"#a", %%r8d\n\t":::"%r8",SSE_REGs); /* r8d = b & a */\
	691	__asm__ volatile("orl %%edi, %%r8d\n\t":::"%edi","%r8",SSE_REGs); /* r8d = Maj(a,b,c) */\
	692
	693	#define RND_STEP_8(a,b,c,d,e,f,g,h,i)\
	694	__asm__ volatile("addl "#h", "#d"\n\t"); /* d += h + w_k + Sigma1(e) + Ch(e,f,g) */\
	695	__asm__ volatile("addl %"#h", %%r8d\n\t":::"%r8",SSE_REGs); \
	696	/* r8b = h + w_k + Sigma1(e) + Ch(e,f,g) + Maj(a,b,c) */\
	697	__asm__ volatile("addl %%edx, %%r8d\n\t":::"%edx","%r8",SSE_REGs);\
	698	/* r8b = h + w_k + Sigma1(e) Sigma0(a) + Ch(e,f,g) + Maj(a,b,c) */\
	699	__asm__ volatile("movl %%r8d, %"#h"\n\t":::"%r8", SSE_REGs); \
	700	/* h = h + w_k + Sigma1(e) + Sigma0(a) + Ch(e,f,g) + Maj(a,b,c) */ \
	701
	702	#define RND_X(a,b,c,d,e,f,g,h,i) \
	703	RND_STEP_1(a,b,c,d,e,f,g,h,i); \
	704	RND_STEP_2(a,b,c,d,e,f,g,h,i); \
	705	RND_STEP_3(a,b,c,d,e,f,g,h,i); \
	706	RND_STEP_4(a,b,c,d,e,f,g,h,i); \
	707	RND_STEP_5(a,b,c,d,e,f,g,h,i); \
	708	RND_STEP_6(a,b,c,d,e,f,g,h,i); \
	709	RND_STEP_7(a,b,c,d,e,f,g,h,i); \
	710	RND_STEP_8(a,b,c,d,e,f,g,h,i);
	711
	712	#define RND_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i);
	713	#define RND_7(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_7,S_0,S_1,S_2,S_3,S_4,S_5,S_6,_i);
	714	#define RND_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_6,S_7,S_0,S_1,S_2,S_3,S_4,S_5,_i);
	715	#define RND_5(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_5,S_6,S_7,S_0,S_1,S_2,S_3,S_4,_i);
	716	#define RND_4(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,_i);
	717	#define RND_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_3,S_4,S_5,S_6,S_7,S_0,S_1,S_2,_i);
	718	#define RND_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_2,S_3,S_4,S_5,S_6,S_7,S_0,S_1,_i);
	719	#define RND_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_1,S_2,S_3,S_4,S_5,S_6,S_7,S_0,_i);
	720
	721
	722	#define RND_1_3(a,b,c,d,e,f,g,h,i) {\
	723	RND_STEP_1(a,b,c,d,e,f,g,h,i); \
	724	RND_STEP_2(a,b,c,d,e,f,g,h,i); \
	725	RND_STEP_3(a,b,c,d,e,f,g,h,i); \
	726	}
	727
	728	#define RND_4_6(a,b,c,d,e,f,g,h,i) {\
	729	RND_STEP_4(a,b,c,d,e,f,g,h,i); \
	730	RND_STEP_5(a,b,c,d,e,f,g,h,i); \
	731	RND_STEP_6(a,b,c,d,e,f,g,h,i); \
	732	}
	733
	734	#define RND_7_8(a,b,c,d,e,f,g,h,i) {\
	735	RND_STEP_7(a,b,c,d,e,f,g,h,i); \
	736	RND_STEP_8(a,b,c,d,e,f,g,h,i); \
	737	}
	738
	739	#define RND_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i);
	740	#define RND_7(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_7,S_0,S_1,S_2,S_3,S_4,S_5,S_6,_i);
	741	#define RND_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_6,S_7,S_0,S_1,S_2,S_3,S_4,S_5,_i);
	742	#define RND_5(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_5,S_6,S_7,S_0,S_1,S_2,S_3,S_4,_i);
	743	#define RND_4(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,_i);
	744	#define RND_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_3,S_4,S_5,S_6,S_7,S_0,S_1,S_2,_i);
	745	#define RND_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_2,S_3,S_4,S_5,S_6,S_7,S_0,S_1,_i);
	746	#define RND_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_X(S_1,S_2,S_3,S_4,S_5,S_6,S_7,S_0,_i);
	747
	748
	749	#define RND_0_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_1_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i);
	750	#define RND_7_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_1_3(S_7,S_0,S_1,S_2,S_3,S_4,S_5,S_6,_i);
	751	#define RND_6_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_1_3(S_6,S_7,S_0,S_1,S_2,S_3,S_4,S_5,_i);
	752	#define RND_5_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_1_3(S_5,S_6,S_7,S_0,S_1,S_2,S_3,S_4,_i);
	753	#define RND_4_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_1_3(S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,_i);
	754	#define RND_3_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_1_3(S_3,S_4,S_5,S_6,S_7,S_0,S_1,S_2,_i);
	755	#define RND_2_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_1_3(S_2,S_3,S_4,S_5,S_6,S_7,S_0,S_1,_i);
	756	#define RND_1_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_1_3(S_1,S_2,S_3,S_4,S_5,S_6,S_7,S_0,_i);
	757
	758	#define RND_0_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_4_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i);
	759	#define RND_7_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_4_6(S_7,S_0,S_1,S_2,S_3,S_4,S_5,S_6,_i);
	760	#define RND_6_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_4_6(S_6,S_7,S_0,S_1,S_2,S_3,S_4,S_5,_i);
	761	#define RND_5_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_4_6(S_5,S_6,S_7,S_0,S_1,S_2,S_3,S_4,_i);
	762	#define RND_4_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_4_6(S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,_i);
	763	#define RND_3_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_4_6(S_3,S_4,S_5,S_6,S_7,S_0,S_1,S_2,_i);
	764	#define RND_2_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_4_6(S_2,S_3,S_4,S_5,S_6,S_7,S_0,S_1,_i);
	765	#define RND_1_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_4_6(S_1,S_2,S_3,S_4,S_5,S_6,S_7,S_0,_i);
	766
	767	#define RND_0_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_7_8(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i);
	768	#define RND_7_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_7_8(S_7,S_0,S_1,S_2,S_3,S_4,S_5,S_6,_i);
	769	#define RND_6_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_7_8(S_6,S_7,S_0,S_1,S_2,S_3,S_4,S_5,_i);
	770	#define RND_5_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_7_8(S_5,S_6,S_7,S_0,S_1,S_2,S_3,S_4,_i);
	771	#define RND_4_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_7_8(S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,_i);
	772	#define RND_3_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_7_8(S_3,S_4,S_5,S_6,S_7,S_0,S_1,S_2,_i);
	773	#define RND_2_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_7_8(S_2,S_3,S_4,S_5,S_6,S_7,S_0,S_1,_i);
	774	#define RND_1_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,_i) RND_7_8(S_1,S_2,S_3,S_4,S_5,S_6,S_7,S_0,_i);
	775
	776	#define FOR(cnt, init, max, inc, loop) \
	777	__asm__ volatile("movl $"#init", %0\n\t"#loop":"::"m"(cnt):)
	778	#define END(cnt, init, max, inc, loop) \
	779	__asm__ volatile("addl $"#inc", %0\n\tcmpl $"#max", %0\n\tjle "#loop"\n\t":"=m"(cnt)::) ;
	780
	781	#endif /* defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2) */
	782
	783	#if defined(HAVE_INTEL_AVX1) /* inline Assember for Intel AVX1 instructions */
	784
	785	#define VPALIGNR(op1,op2,op3,op4) __asm__ volatile("vpalignr $"#op4", %"#op3", %"#op2", %"#op1:::XMM_REGs)
	786	#define VPADDD(op1,op2,op3) __asm__ volatile("vpaddd %"#op3", %"#op2", %"#op1:::XMM_REGs)
	787	#define VPSRLD(op1,op2,op3) __asm__ volatile("vpsrld $"#op3", %"#op2", %"#op1:::XMM_REGs)
	788	#define VPSRLQ(op1,op2,op3) __asm__ volatile("vpsrlq $"#op3", %"#op2", %"#op1:::XMM_REGs)
	789	#define VPSLLD(op1,op2,op3) __asm__ volatile("vpslld $"#op3", %"#op2", %"#op1:::XMM_REGs)
	790	#define VPOR(op1,op2,op3) __asm__ volatile("vpor %"#op3", %"#op2", %"#op1:::XMM_REGs)
	791	#define VPXOR(op1,op2,op3) __asm__ volatile("vpxor %"#op3", %"#op2", %"#op1:::XMM_REGs)
	792	#define VPSHUFD(op1,op2,op3) __asm__ volatile("vpshufd $"#op3", %"#op2", %"#op1:::XMM_REGs)
	793	#define VPSHUFB(op1,op2,op3) __asm__ volatile("vpshufb %"#op3", %"#op2", %"#op1:::XMM_REGs)
	794
	795	#define MessageSched(X0, X1, X2, X3, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER, SHUF_00BA, SHUF_DC00,\
	796	a,b,c,d,e,f,g,h,_i)\
	797	RND_STEP_1(a,b,c,d,e,f,g,h,_i);\
	798	VPALIGNR (XTMP0, X3, X2, 4) ;\
	799	RND_STEP_2(a,b,c,d,e,f,g,h,_i);\
	800	VPADDD (XTMP0, XTMP0, X0) ;\
	801	RND_STEP_3(a,b,c,d,e,f,g,h,_i);\
	802	VPALIGNR (XTMP1, X1, X0, 4) ; /* XTMP1 = W[-15] */\
	803	RND_STEP_4(a,b,c,d,e,f,g,h,_i);\
	804	VPSRLD (XTMP2, XTMP1, 7) ;\
	805	RND_STEP_5(a,b,c,d,e,f,g,h,_i);\
	806	VPSLLD (XTMP3, XTMP1, 25) ; /* VPSLLD (XTMP3, XTMP1, (32-7)) */\
	807	RND_STEP_6(a,b,c,d,e,f,g,h,_i);\
	808	VPOR (XTMP3, XTMP3, XTMP2) ; /* XTMP1 = W[-15] MY_ROR 7 */\
	809	RND_STEP_7(a,b,c,d,e,f,g,h,_i);\
	810	VPSRLD (XTMP2, XTMP1,18) ;\
	811	RND_STEP_8(a,b,c,d,e,f,g,h,_i);\
	812	\
	813	RND_STEP_1(h,a,b,c,d,e,f,g,_i+1);\
	814	VPSRLD (XTMP4, XTMP1, 3) ; /* XTMP4 = W[-15] >> 3 */\
	815	RND_STEP_2(h,a,b,c,d,e,f,g,_i+1);\
	816	VPSLLD (XTMP1, XTMP1, 14) ; /* VPSLLD (XTMP1, XTMP1, (32-18)) */\
	817	RND_STEP_3(h,a,b,c,d,e,f,g,_i+1);\
	818	VPXOR (XTMP3, XTMP3, XTMP1) ;\
	819	RND_STEP_4(h,a,b,c,d,e,f,g,_i+1);\
	820	VPXOR (XTMP3, XTMP3, XTMP2) ; /* XTMP1 = W[-15] MY_ROR 7 ^ W[-15] MY_ROR 18 */\
	821	RND_STEP_5(h,a,b,c,d,e,f,g,_i+1);\
	822	VPXOR (XTMP1, XTMP3, XTMP4) ; /* XTMP1 = s0 */\
	823	RND_STEP_6(h,a,b,c,d,e,f,g,_i+1);\
	824	VPSHUFD(XTMP2, X3, 0b11111010) ; /* XTMP2 = W[-2] {BBAA}*/\
	825	RND_STEP_7(h,a,b,c,d,e,f,g,_i+1);\
	826	VPADDD (XTMP0, XTMP0, XTMP1) ; /* XTMP0 = W[-16] + W[-7] + s0 */\
	827	RND_STEP_8(h,a,b,c,d,e,f,g,_i+1);\
	828	\
	829	RND_STEP_1(g,h,a,b,c,d,e,f,_i+2);\
	830	VPSRLD (XTMP4, XTMP2, 10) ; /* XTMP4 = W[-2] >> 10 {BBAA} */\
	831	RND_STEP_2(g,h,a,b,c,d,e,f,_i+2);\
	832	VPSRLQ (XTMP3, XTMP2, 19) ; /* XTMP3 = W[-2] MY_ROR 19 {xBxA} */\
	833	RND_STEP_3(g,h,a,b,c,d,e,f,_i+2);\
	834	VPSRLQ (XTMP2, XTMP2, 17) ; /* XTMP2 = W[-2] MY_ROR 17 {xBxA} */\
	835	RND_STEP_4(g,h,a,b,c,d,e,f,_i+2);\
	836	VPXOR (XTMP2, XTMP2, XTMP3) ;\
	837	RND_STEP_5(g,h,a,b,c,d,e,f,_i+2);\
	838	VPXOR (XTMP4, XTMP4, XTMP2) ; /* XTMP4 = s1 {xBxA} */\
	839	RND_STEP_6(g,h,a,b,c,d,e,f,_i+2);\
	840	VPSHUFB (XTMP4, XTMP4, SHUF_00BA) ; /* XTMP4 = s1 {00BA} */\
	841	RND_STEP_7(g,h,a,b,c,d,e,f,_i+2);\
	842	VPADDD (XTMP0, XTMP0, XTMP4) ; /* XTMP0 = {..., ..., W[1], W[0]} */\
	843	RND_STEP_8(g,h,a,b,c,d,e,f,_i+2);\
	844	\
	845	RND_STEP_1(f,g,h,a,b,c,d,e,_i+3);\
	846	VPSHUFD (XTMP2, XTMP0, 0b01010000) ; /* XTMP2 = W[-2] {DDCC} */\
	847	RND_STEP_2(f,g,h,a,b,c,d,e,_i+3);\
	848	VPSRLD (XTMP5, XTMP2, 10); /* XTMP5 = W[-2] >> 10 {DDCC} */\
	849	RND_STEP_3(f,g,h,a,b,c,d,e,_i+3);\
	850	VPSRLQ (XTMP3, XTMP2, 19); /* XTMP3 = W[-2] MY_ROR 19 {xDxC} */\
	851	RND_STEP_4(f,g,h,a,b,c,d,e,_i+3);\
	852	VPSRLQ (XTMP2, XTMP2, 17) ; /* XTMP2 = W[-2] MY_ROR 17 {xDxC} */\
	853	RND_STEP_5(f,g,h,a,b,c,d,e,_i+3);\
	854	VPXOR (XTMP2, XTMP2, XTMP3) ;\
	855	RND_STEP_6(f,g,h,a,b,c,d,e,_i+3);\
	856	VPXOR (XTMP5, XTMP5, XTMP2) ; /* XTMP5 = s1 {xDxC} */\
	857	RND_STEP_7(f,g,h,a,b,c,d,e,_i+3);\
	858	VPSHUFB (XTMP5, XTMP5, SHUF_DC00) ; /* XTMP5 = s1 {DC00} */\
	859	RND_STEP_8(f,g,h,a,b,c,d,e,_i+3);\
	860	VPADDD (X0, XTMP5, XTMP0) ; /* X0 = {W[3], W[2], W[1], W[0]} */\
	861
	862	#if defined(HAVE_INTEL_RORX)
	863
	864	#define MessageSched_RORX(X0, X1, X2, X3, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, \
	865	XFER, SHUF_00BA, SHUF_DC00,a,b,c,d,e,f,g,h,_i)\
	866	RND_STEP_RORX_1(a,b,c,d,e,f,g,h,_i);\
	867	VPALIGNR (XTMP0, X3, X2, 4) ;\
	868	RND_STEP_RORX_2(a,b,c,d,e,f,g,h,_i);\
	869	VPADDD (XTMP0, XTMP0, X0) ;\
	870	RND_STEP_RORX_3(a,b,c,d,e,f,g,h,_i);\
	871	VPALIGNR (XTMP1, X1, X0, 4) ; /* XTMP1 = W[-15] */\
	872	RND_STEP_RORX_4(a,b,c,d,e,f,g,h,_i);\
	873	VPSRLD (XTMP2, XTMP1, 7) ;\
	874	RND_STEP_RORX_5(a,b,c,d,e,f,g,h,_i);\
	875	VPSLLD (XTMP3, XTMP1, 25) ; /* VPSLLD (XTMP3, XTMP1, (32-7)) */\
	876	RND_STEP_RORX_6(a,b,c,d,e,f,g,h,_i);\
	877	VPOR (XTMP3, XTMP3, XTMP2) ; /* XTMP1 = W[-15] MY_ROR 7 */\
	878	RND_STEP_RORX_7(a,b,c,d,e,f,g,h,_i);\
	879	VPSRLD (XTMP2, XTMP1,18) ;\
	880	RND_STEP_RORX_8(a,b,c,d,e,f,g,h,_i);\
	881	\
	882	RND_STEP_RORX_1(h,a,b,c,d,e,f,g,_i+1);\
	883	VPSRLD (XTMP4, XTMP1, 3) ; /* XTMP4 = W[-15] >> 3 */\
	884	RND_STEP_RORX_2(h,a,b,c,d,e,f,g,_i+1);\
	885	VPSLLD (XTMP1, XTMP1, 14) ; /* VPSLLD (XTMP1, XTMP1, (32-18)) */\
	886	RND_STEP_RORX_3(h,a,b,c,d,e,f,g,_i+1);\
	887	VPXOR (XTMP3, XTMP3, XTMP1) ;\
	888	RND_STEP_RORX_4(h,a,b,c,d,e,f,g,_i+1);\
	889	VPXOR (XTMP3, XTMP3, XTMP2) ; /* XTMP1 = W[-15] MY_ROR 7 ^ W[-15] MY_ROR 18 */\
	890	RND_STEP_RORX_5(h,a,b,c,d,e,f,g,_i+1);\
	891	VPXOR (XTMP1, XTMP3, XTMP4) ; /* XTMP1 = s0 */\
	892	RND_STEP_RORX_6(h,a,b,c,d,e,f,g,_i+1);\
	893	VPSHUFD(XTMP2, X3, 0b11111010) ; /* XTMP2 = W[-2] {BBAA}*/\
	894	RND_STEP_RORX_7(h,a,b,c,d,e,f,g,_i+1);\
	895	VPADDD (XTMP0, XTMP0, XTMP1) ; /* XTMP0 = W[-16] + W[-7] + s0 */\
	896	RND_STEP_RORX_8(h,a,b,c,d,e,f,g,_i+1);\
	897	\
	898	RND_STEP_RORX_1(g,h,a,b,c,d,e,f,_i+2);\
	899	VPSRLD (XTMP4, XTMP2, 10) ; /* XTMP4 = W[-2] >> 10 {BBAA} */\
	900	RND_STEP_RORX_2(g,h,a,b,c,d,e,f,_i+2);\
	901	VPSRLQ (XTMP3, XTMP2, 19) ; /* XTMP3 = W[-2] MY_ROR 19 {xBxA} */\
	902	RND_STEP_RORX_3(g,h,a,b,c,d,e,f,_i+2);\
	903	VPSRLQ (XTMP2, XTMP2, 17) ; /* XTMP2 = W[-2] MY_ROR 17 {xBxA} */\
	904	RND_STEP_RORX_4(g,h,a,b,c,d,e,f,_i+2);\
	905	VPXOR (XTMP2, XTMP2, XTMP3) ;\
	906	RND_STEP_RORX_5(g,h,a,b,c,d,e,f,_i+2);\
	907	VPXOR (XTMP4, XTMP4, XTMP2) ; /* XTMP4 = s1 {xBxA} */\
	908	RND_STEP_RORX_6(g,h,a,b,c,d,e,f,_i+2);\
	909	VPSHUFB (XTMP4, XTMP4, SHUF_00BA) ; /* XTMP4 = s1 {00BA} */\
	910	RND_STEP_RORX_7(g,h,a,b,c,d,e,f,_i+2);\
	911	VPADDD (XTMP0, XTMP0, XTMP4) ; /* XTMP0 = {..., ..., W[1], W[0]} */\
	912	RND_STEP_RORX_8(g,h,a,b,c,d,e,f,_i+2);\
	913	\
	914	RND_STEP_RORX_1(f,g,h,a,b,c,d,e,_i+3);\
	915	VPSHUFD (XTMP2, XTMP0, 0b01010000) ; /* XTMP2 = W[-2] {DDCC} */\
	916	RND_STEP_RORX_2(f,g,h,a,b,c,d,e,_i+3);\
	917	VPSRLD (XTMP5, XTMP2, 10); /* XTMP5 = W[-2] >> 10 {DDCC} */\
	918	RND_STEP_RORX_3(f,g,h,a,b,c,d,e,_i+3);\
	919	VPSRLQ (XTMP3, XTMP2, 19); /* XTMP3 = W[-2] MY_ROR 19 {xDxC} */\
	920	RND_STEP_RORX_4(f,g,h,a,b,c,d,e,_i+3);\
	921	VPSRLQ (XTMP2, XTMP2, 17) ; /* XTMP2 = W[-2] MY_ROR 17 {xDxC} */\
	922	RND_STEP_RORX_5(f,g,h,a,b,c,d,e,_i+3);\
	923	VPXOR (XTMP2, XTMP2, XTMP3) ;\
	924	RND_STEP_RORX_6(f,g,h,a,b,c,d,e,_i+3);\
	925	VPXOR (XTMP5, XTMP5, XTMP2) ; /* XTMP5 = s1 {xDxC} */\
	926	RND_STEP_RORX_7(f,g,h,a,b,c,d,e,_i+3);\
	927	VPSHUFB (XTMP5, XTMP5, SHUF_DC00) ; /* XTMP5 = s1 {DC00} */\
	928	RND_STEP_RORX_8(f,g,h,a,b,c,d,e,_i+3);\
	929	VPADDD (X0, XTMP5, XTMP0) ; /* X0 = {W[3], W[2], W[1], W[0]} */\
	930
	931	#endif
	932
	933
	934	#define W_K_from_buff\
	935	__asm__ volatile("vmovdqu %0, %%xmm4\n\t"\
	936	"vpshufb %%xmm13, %%xmm4, %%xmm4\n\t"\
	937	:: "m"(sha256->buffer[0]):"%xmm4") ;\
	938	__asm__ volatile("vmovdqu %0, %%xmm5\n\t"\
	939	"vpshufb %%xmm13, %%xmm5, %%xmm5\n\t"\
	940	::"m"(sha256->buffer[4]):"%xmm5") ;\
	941	__asm__ volatile("vmovdqu %0, %%xmm6\n\t"\
	942	"vpshufb %%xmm13, %%xmm6, %%xmm6\n\t"\
	943	::"m"(sha256->buffer[8]):"%xmm6") ;\
	944	__asm__ volatile("vmovdqu %0, %%xmm7\n\t"\
	945	"vpshufb %%xmm13, %%xmm7, %%xmm7\n\t"\
	946	::"m"(sha256->buffer[12]):"%xmm7") ;\
	947
	948	#define _SET_W_K_XFER(reg, i)\
	949	__asm__ volatile("vpaddd %0, %"#reg", %%xmm9"::"m"(K[i]):XMM_REGs) ;\
	950	__asm__ volatile("vmovdqa %%xmm9, %0":"=m"(W_K[i])::XMM_REGs) ;
	951
	952	#define SET_W_K_XFER(reg, i) _SET_W_K_XFER(reg, i)
	953
	954	static const ALIGN32 word64 mSHUF_00BA[] = { 0x0b0a090803020100, 0xFFFFFFFFFFFFFFFF } ; /* shuffle xBxA -> 00BA */
	955	static const ALIGN32 word64 mSHUF_DC00[] = { 0xFFFFFFFFFFFFFFFF, 0x0b0a090803020100 } ; /* shuffle xDxC -> DC00 */
	956	static const ALIGN32 word64 mBYTE_FLIP_MASK[] = { 0x0405060700010203, 0x0c0d0e0f08090a0b } ;
	957
	958
	959	#define _Init_Masks(mask1, mask2, mask3)\
	960	__asm__ volatile("vmovdqu %0, %"#mask1 ::"m"(mBYTE_FLIP_MASK[0])) ;\
	961	__asm__ volatile("vmovdqu %0, %"#mask2 ::"m"(mSHUF_00BA[0])) ;\
	962	__asm__ volatile("vmovdqu %0, %"#mask3 ::"m"(mSHUF_DC00[0])) ;
	963
	964	#define Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)\
	965	_Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)
	966
	967	#define X0 %xmm4
	968	#define X1 %xmm5
	969	#define X2 %xmm6
	970	#define X3 %xmm7
	971	#define X_ X0
	972
	973	#define XTMP0 %xmm0
	974	#define XTMP1 %xmm1
	975	#define XTMP2 %xmm2
	976	#define XTMP3 %xmm3
	977	#define XTMP4 %xmm8
	978	#define XTMP5 %xmm9
	979	#define XFER %xmm10
	980
	981	#define SHUF_00BA %xmm11 /* shuffle xBxA -> 00BA */
	982	#define SHUF_DC00 %xmm12 /* shuffle xDxC -> DC00 */
	983	#define BYTE_FLIP_MASK %xmm13
	984
	985	#define XMM_REGs /* Registers are saved in Sha256Update/Finel */
	986	/"xmm4","xmm5","xmm6","xmm7","xmm8","xmm9","xmm10","xmm11","xmm12","xmm13" /
	987
	988	static int Transform_AVX1(Sha256* sha256)
	989	{
	990
	991	word32 W_K[64] ; /* temp for W+K */
	992
	993	#if defined(DEBUG_XMM)
	994	int i, j ;
	995	word32 xmm[29][4*15] ;
	996	#endif
	997
	998	Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00) ;
	999	W_K_from_buff ; /* X0, X1, X2, X3 = W[0..15] ; */
	1000
	1001	DigestToReg(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7) ;
	1002
	1003	SET_W_K_XFER(X0, 0) ;
	1004	MessageSched(X0, X1, X2, X3, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1005	SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,0) ;
	1006	SET_W_K_XFER(X1, 4) ;
	1007	MessageSched(X1, X2, X3, X0, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1008	SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,4) ;
	1009	SET_W_K_XFER(X2, 8) ;
	1010	MessageSched(X2, X3, X0, X1, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1011	SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,8) ;
	1012	SET_W_K_XFER(X3, 12) ;
	1013	MessageSched(X3, X0, X1, X2, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1014	SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,12) ;
	1015	SET_W_K_XFER(X0, 16) ;
	1016	MessageSched(X0, X1, X2, X3, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1017	SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,16) ;
	1018	SET_W_K_XFER(X1, 20) ;
	1019	MessageSched(X1, X2, X3, X0, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1020	SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,20) ;
	1021	SET_W_K_XFER(X2, 24) ;
	1022	MessageSched(X2, X3, X0, X1, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1023	SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,24) ;
	1024	SET_W_K_XFER(X3, 28) ;
	1025	MessageSched(X3, X0, X1, X2, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1026	SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,28) ;
	1027	SET_W_K_XFER(X0, 32) ;
	1028	MessageSched(X0, X1, X2, X3, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1029	SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,32) ;
	1030	SET_W_K_XFER(X1, 36) ;
	1031	MessageSched(X1, X2, X3, X0, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1032	SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,36) ;
	1033	SET_W_K_XFER(X2, 40) ;
	1034	MessageSched(X2, X3, X0, X1, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1035	SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,40) ;
	1036	SET_W_K_XFER(X3, 44) ;
	1037	MessageSched(X3, X0, X1, X2, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5, XFER,
	1038	SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,44) ;
	1039
	1040	SET_W_K_XFER(X0, 48) ;
	1041	SET_W_K_XFER(X1, 52) ;
	1042	SET_W_K_XFER(X2, 56) ;
	1043	SET_W_K_XFER(X3, 60) ;
	1044
	1045	RND_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,48) ;
	1046	RND_7(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,49) ;
	1047	RND_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,50) ;
	1048	RND_5(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,51) ;
	1049
	1050	RND_4(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,52) ;
	1051	RND_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,53) ;
	1052	RND_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,54) ;
	1053	RND_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,55) ;
	1054
	1055	RND_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,56) ;
	1056	RND_7(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,57) ;
	1057	RND_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,58) ;
	1058	RND_5(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,59) ;
	1059
	1060	RND_4(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,60) ;
	1061	RND_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,61) ;
	1062	RND_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,62) ;
	1063	RND_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,63) ;
	1064
	1065	RegToDigest(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7) ;
	1066
	1067	#if defined(DEBUG_XMM)
	1068	for(i=0; i<29; i++) {
	1069	for(j=0; j<4*14; j+=4)
	1070	printf("xmm%d[%d]=%08x,%08x,%08x,%08x\n", j/4, i,
	1071	xmm[i][j],xmm[i][j+1],xmm[i][j+2],xmm[i][j+3]) ;
	1072	printf("\n") ;
	1073	}
	1074
	1075	for(i=0; i<64; i++)printf("W_K[%d]%08x\n", i, W_K[i]) ;
	1076	#endif
	1077
	1078	return 0;
	1079	}
	1080
	1081	#if defined(HAVE_INTEL_RORX)
	1082	static int Transform_AVX1_RORX(Sha256* sha256)
	1083	{
	1084
	1085	word32 W_K[64] ; /* temp for W+K */
	1086
	1087	#if defined(DEBUG_XMM)
	1088	int i, j ;
	1089	word32 xmm[29][4*15] ;
	1090	#endif
	1091
	1092	Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00) ;
	1093	W_K_from_buff ; /* X0, X1, X2, X3 = W[0..15] ; */
	1094
	1095	DigestToReg(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7) ;
	1096	SET_W_K_XFER(X0, 0) ;
	1097	MessageSched_RORX(X0, X1, X2, X3, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1098	XFER, SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,0) ;
	1099	SET_W_K_XFER(X1, 4) ;
	1100	MessageSched_RORX(X1, X2, X3, X0, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1101	XFER, SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,4) ;
	1102	SET_W_K_XFER(X2, 8) ;
	1103	MessageSched_RORX(X2, X3, X0, X1, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1104	XFER, SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,8) ;
	1105	SET_W_K_XFER(X3, 12) ;
	1106	MessageSched_RORX(X3, X0, X1, X2, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1107	XFER, SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,12) ;
	1108	SET_W_K_XFER(X0, 16) ;
	1109	MessageSched_RORX(X0, X1, X2, X3, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1110	XFER, SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,16) ;
	1111	SET_W_K_XFER(X1, 20) ;
	1112	MessageSched_RORX(X1, X2, X3, X0, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1113	XFER, SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,20) ;
	1114	SET_W_K_XFER(X2, 24) ;
	1115	MessageSched_RORX(X2, X3, X0, X1, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1116	XFER, SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,24) ;
	1117	SET_W_K_XFER(X3, 28) ;
	1118	MessageSched_RORX(X3, X0, X1, X2, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1119	XFER, SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,28) ;
	1120	SET_W_K_XFER(X0, 32) ;
	1121	MessageSched_RORX(X0, X1, X2, X3, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1122	XFER, SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,32) ;
	1123	SET_W_K_XFER(X1, 36) ;
	1124	MessageSched_RORX(X1, X2, X3, X0, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1125	XFER, SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,36) ;
	1126	SET_W_K_XFER(X2, 40) ;
	1127	MessageSched_RORX(X2, X3, X0, X1, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1128	XFER, SHUF_00BA, SHUF_DC00, S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,40) ;
	1129	SET_W_K_XFER(X3, 44) ;
	1130	MessageSched_RORX(X3, X0, X1, X2, XTMP0, XTMP1, XTMP2, XTMP3, XTMP4, XTMP5,
	1131	XFER, SHUF_00BA, SHUF_DC00, S_4,S_5,S_6,S_7,S_0,S_1,S_2,S_3,44) ;
	1132
	1133	SET_W_K_XFER(X0, 48) ;
	1134	SET_W_K_XFER(X1, 52) ;
	1135	SET_W_K_XFER(X2, 56) ;
	1136	SET_W_K_XFER(X3, 60) ;
	1137
	1138	RND_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,48) ;
	1139	RND_7(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,49) ;
	1140	RND_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,50) ;
	1141	RND_5(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,51) ;
	1142
	1143	RND_4(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,52) ;
	1144	RND_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,53) ;
	1145	RND_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,54) ;
	1146	RND_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,55) ;
	1147
	1148	RND_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,56) ;
	1149	RND_7(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,57) ;
	1150	RND_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,58) ;
	1151	RND_5(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,59) ;
	1152
	1153	RND_4(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,60) ;
	1154	RND_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,61) ;
	1155	RND_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,62) ;
	1156	RND_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,63) ;
	1157
	1158	RegToDigest(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7) ;
	1159
	1160	#if defined(DEBUG_XMM)
	1161	for(i=0; i<29; i++) {
	1162	for(j=0; j<4*14; j+=4)
	1163	printf("xmm%d[%d]=%08x,%08x,%08x,%08x\n", j/4, i,
	1164	xmm[i][j],xmm[i][j+1],xmm[i][j+2],xmm[i][j+3]) ;
	1165	printf("\n") ;
	1166	}
	1167
	1168	for(i=0; i<64; i++)printf("W_K[%d]%08x\n", i, W_K[i]) ;
	1169	#endif
	1170
	1171	return 0;
	1172	}
	1173	#endif /* HAVE_INTEL_RORX */
	1174
	1175	#endif /* HAVE_INTEL_AVX1 */
	1176
	1177
	1178	#if defined(HAVE_INTEL_AVX2)
	1179
	1180	#define _MOVE_to_REG(ymm, mem) __asm__ volatile("vmovdqu %0, %%"#ymm" ":: "m"(mem):YMM_REGs) ;
	1181	#define _MOVE_to_MEM(mem, ymm) __asm__ volatile("vmovdqu %%"#ymm", %0" : "=m"(mem)::YMM_REGs) ;
	1182	#define _BYTE_SWAP(ymm, map) __asm__ volatile("vpshufb %0, %%"#ymm", %%"#ymm"\n\t"\
	1183	:: "m"(map):YMM_REGs) ;
	1184	#define _MOVE_128(ymm0, ymm1, ymm2, map) __asm__ volatile("vperm2i128 $"#map", %%"\
	1185	#ymm2", %%"#ymm1", %%"#ymm0" ":::YMM_REGs) ;
	1186	#define _MOVE_BYTE(ymm0, ymm1, map) __asm__ volatile("vpshufb %0, %%"#ymm1", %%"\
	1187	#ymm0"\n\t":: "m"(map):YMM_REGs) ;
	1188	#define _S_TEMP(dest, src, bits, temp) __asm__ volatile("vpsrld $"#bits", %%"\
	1189	#src", %%"#dest"\n\tvpslld $32-"#bits", %%"#src", %%"#temp"\n\tvpor %%"\
	1190	#temp",%%"#dest", %%"#dest" ":::YMM_REGs) ;
	1191	#define _AVX2_R(dest, src, bits) __asm__ volatile("vpsrld $"#bits", %%"\
	1192	#src", %%"#dest" ":::YMM_REGs) ;
	1193	#define _XOR(dest, src1, src2) __asm__ volatile("vpxor %%"#src1", %%"\
	1194	#src2", %%"#dest" ":::YMM_REGs) ;
	1195	#define _OR(dest, src1, src2) __asm__ volatile("vpor %%"#src1", %%"\
	1196	#src2", %%"#dest" ":::YMM_REGs) ;
	1197	#define _ADD(dest, src1, src2) __asm__ volatile("vpaddd %%"#src1", %%"\
	1198	#src2", %%"#dest" ":::YMM_REGs) ;
	1199	#define _ADD_MEM(dest, src1, mem) __asm__ volatile("vpaddd %0, %%"#src1", %%"\
	1200	#dest" "::"m"(mem):YMM_REGs) ;
	1201	#define _BLEND(map, dest, src1, src2) __asm__ volatile("vpblendd $"#map", %%"\
	1202	#src1", %%"#src2", %%"#dest" ":::YMM_REGs) ;
	1203
	1204	#define _EXTRACT_XMM_0(xmm, mem) __asm__ volatile("vpextrd $0, %%"#xmm", %0 ":"=r"(mem)::YMM_REGs) ;
	1205	#define _EXTRACT_XMM_1(xmm, mem) __asm__ volatile("vpextrd $1, %%"#xmm", %0 ":"=r"(mem)::YMM_REGs) ;
	1206	#define _EXTRACT_XMM_2(xmm, mem) __asm__ volatile("vpextrd $2, %%"#xmm", %0 ":"=r"(mem)::YMM_REGs) ;
	1207	#define _EXTRACT_XMM_3(xmm, mem) __asm__ volatile("vpextrd $3, %%"#xmm", %0 ":"=r"(mem)::YMM_REGs) ;
	1208	#define _EXTRACT_XMM_4(ymm, xmm, mem)\
	1209	__asm__ volatile("vperm2i128 $0x1, %%"#ymm", %%"#ymm", %%"#ymm" ":::YMM_REGs) ;\
	1210	__asm__ volatile("vpextrd $0, %%"#xmm", %0 ":"=r"(mem)::YMM_REGs) ;
	1211	#define _EXTRACT_XMM_5(xmm, mem) __asm__ volatile("vpextrd $1, %%"#xmm", %0 ":"=r"(mem)::YMM_REGs) ;
	1212	#define _EXTRACT_XMM_6(xmm, mem) __asm__ volatile("vpextrd $2, %%"#xmm", %0 ":"=r"(mem)::YMM_REGs) ;
	1213	#define _EXTRACT_XMM_7(xmm, mem) __asm__ volatile("vpextrd $3, %%"#xmm", %0 ":"=r"(mem)::YMM_REGs) ;
	1214
	1215	#define _SWAP_YMM_HL(ymm) __asm__ volatile("vperm2i128 $0x1, %%"#ymm", %%"#ymm", %%"#ymm" ":::YMM_REGs) ;
	1216	#define SWAP_YMM_HL(ymm) _SWAP_YMM_HL(ymm)
	1217
	1218	#define MOVE_to_REG(ymm, mem) _MOVE_to_REG(ymm, mem)
	1219	#define MOVE_to_MEM(mem, ymm) _MOVE_to_MEM(mem, ymm)
	1220	#define BYTE_SWAP(ymm, map) _BYTE_SWAP(ymm, map)
	1221	#define MOVE_128(ymm0, ymm1, ymm2, map) _MOVE_128(ymm0, ymm1, ymm2, map)
	1222	#define MOVE_BYTE(ymm0, ymm1, map) _MOVE_BYTE(ymm0, ymm1, map)
	1223	#define XOR(dest, src1, src2) _XOR(dest, src1, src2)
	1224	#define OR(dest, src1, src2) _OR(dest, src1, src2)
	1225	#define ADD(dest, src1, src2) _ADD(dest, src1, src2)
	1226	#define ADD_MEM(dest, src1, mem) _ADD_MEM(dest, src1, mem)
	1227	#define BLEND(map, dest, src1, src2) _BLEND(map, dest, src1, src2)
	1228
	1229	#define S_TMP(dest, src, bits, temp) _S_TEMP(dest, src, bits, temp);
	1230	#define AVX2_S(dest, src, bits) S_TMP(dest, src, bits, S_TEMP)
	1231	#define AVX2_R(dest, src, bits) _AVX2_R(dest, src, bits)
	1232
	1233	#define GAMMA0(dest, src) AVX2_S(dest, src, 7); AVX2_S(G_TEMP, src, 18); \
	1234	XOR(dest, G_TEMP, dest) ; AVX2_R(G_TEMP, src, 3); XOR(dest, G_TEMP, dest) ;
	1235	#define GAMMA0_1(dest, src) AVX2_S(dest, src, 7); AVX2_S(G_TEMP, src, 18);
	1236	#define GAMMA0_2(dest, src) XOR(dest, G_TEMP, dest) ; AVX2_R(G_TEMP, src, 3); \
	1237	XOR(dest, G_TEMP, dest) ;
	1238
	1239	#define GAMMA1(dest, src) AVX2_S(dest, src, 17); AVX2_S(G_TEMP, src, 19); \
	1240	XOR(dest, G_TEMP, dest) ; AVX2_R(G_TEMP, src, 10); XOR(dest, G_TEMP, dest) ;
	1241	#define GAMMA1_1(dest, src) AVX2_S(dest, src, 17); AVX2_S(G_TEMP, src, 19);
	1242	#define GAMMA1_2(dest, src) XOR(dest, G_TEMP, dest) ; AVX2_R(G_TEMP, src, 10); \
	1243	XOR(dest, G_TEMP, dest) ;
	1244
	1245	#define FEEDBACK1_to_W_I_2 MOVE_BYTE(YMM_TEMP0, W_I, mMAP1toW_I_2[0]) ; \
	1246	BLEND(0x0c, W_I_2, YMM_TEMP0, W_I_2) ;
	1247	#define FEEDBACK2_to_W_I_2 MOVE_128(YMM_TEMP0, W_I, W_I, 0x08) ; \
	1248	MOVE_BYTE(YMM_TEMP0, YMM_TEMP0, mMAP2toW_I_2[0]) ; BLEND(0x30, W_I_2, YMM_TEMP0, W_I_2) ;
	1249	#define FEEDBACK3_to_W_I_2 MOVE_BYTE(YMM_TEMP0, W_I, mMAP3toW_I_2[0]) ; \
	1250	BLEND(0xc0, W_I_2, YMM_TEMP0, W_I_2) ;
	1251
	1252	#define FEEDBACK_to_W_I_7 MOVE_128(YMM_TEMP0, W_I, W_I, 0x08) ;\
	1253	MOVE_BYTE(YMM_TEMP0, YMM_TEMP0, mMAPtoW_I_7[0]) ; BLEND(0x80, W_I_7, YMM_TEMP0, W_I_7) ;
	1254
	1255	#undef voitle
	1256
	1257	#define W_I_16 ymm8
	1258	#define W_I_15 ymm9
	1259	#define W_I_7 ymm10
	1260	#define W_I_2 ymm11
	1261	#define W_I ymm12
	1262	#define G_TEMP ymm13
	1263	#define S_TEMP ymm14
	1264	#define YMM_TEMP0 ymm15
	1265	#define YMM_TEMP0x xmm15
	1266	#define W_I_TEMP ymm7
	1267	#define W_K_TEMP ymm15
	1268	#define W_K_TEMPx xmm15
	1269
	1270	#define YMM_REGs /* Registers are saved in Sha256Update/Finel */
	1271	/* "%ymm7","%ymm8","%ymm9","%ymm10","%ymm11","%ymm12","%ymm13","%ymm14","%ymm15"*/
	1272
	1273
	1274	#define MOVE_15_to_16(w_i_16, w_i_15, w_i_7)\
	1275	__asm__ volatile("vperm2i128 $0x01, %%"#w_i_15", %%"#w_i_15", %%"#w_i_15" ":::YMM_REGs) ;\
	1276	__asm__ volatile("vpblendd $0x08, %%"#w_i_15", %%"#w_i_7", %%"#w_i_16" ":::YMM_REGs) ;\
	1277	__asm__ volatile("vperm2i128 $0x01, %%"#w_i_7", %%"#w_i_7", %%"#w_i_15" ":::YMM_REGs) ;\
	1278	__asm__ volatile("vpblendd $0x80, %%"#w_i_15", %%"#w_i_16", %%"#w_i_16" ":::YMM_REGs) ;\
	1279	__asm__ volatile("vpshufd $0x93, %%"#w_i_16", %%"#w_i_16" ":::YMM_REGs) ;\
	1280
	1281	#define MOVE_7_to_15(w_i_15, w_i_7)\
	1282	__asm__ volatile("vmovdqu %%"#w_i_7", %%"#w_i_15" ":::YMM_REGs) ;\
	1283
	1284	#define MOVE_I_to_7(w_i_7, w_i)\
	1285	__asm__ volatile("vperm2i128 $0x01, %%"#w_i", %%"#w_i", %%"#w_i_7" ":::YMM_REGs) ;\
	1286	__asm__ volatile("vpblendd $0x01, %%"#w_i_7", %%"#w_i", %%"#w_i_7" ":::YMM_REGs) ;\
	1287	__asm__ volatile("vpshufd $0x39, %%"#w_i_7", %%"#w_i_7" ":::YMM_REGs) ;\
	1288
	1289	#define MOVE_I_to_2(w_i_2, w_i)\
	1290	__asm__ volatile("vperm2i128 $0x01, %%"#w_i", %%"#w_i", %%"#w_i_2" ":::YMM_REGs) ;\
	1291	__asm__ volatile("vpshufd $0x0e, %%"#w_i_2", %%"#w_i_2" ":::YMM_REGs) ;\
	1292
	1293	#define ROTATE_W(w_i_16, w_i_15, w_i_7, w_i_2, w_i)\
	1294	MOVE_15_to_16(w_i_16, w_i_15, w_i_7) ; \
	1295	MOVE_7_to_15(w_i_15, w_i_7) ; \
	1296	MOVE_I_to_7(w_i_7, w_i) ; \
	1297	MOVE_I_to_2(w_i_2, w_i) ;\
	1298
	1299	#define _RegToDigest(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	1300	{ word32 d ;\
	1301	__asm__ volatile("movl %"#S_0", %0":"=r"(d)::SSE_REGs) ;\
	1302	sha256->digest[0] += d;\
	1303	__asm__ volatile("movl %"#S_1", %0":"=r"(d)::SSE_REGs) ;\
	1304	sha256->digest[1] += d;\
	1305	__asm__ volatile("movl %"#S_2", %0":"=r"(d)::SSE_REGs) ;\
	1306	sha256->digest[2] += d;\
	1307	__asm__ volatile("movl %"#S_3", %0":"=r"(d)::SSE_REGs) ;\
	1308	sha256->digest[3] += d;\
	1309	__asm__ volatile("movl %"#S_4", %0":"=r"(d)::SSE_REGs) ;\
	1310	sha256->digest[4] += d;\
	1311	__asm__ volatile("movl %"#S_5", %0":"=r"(d)::SSE_REGs) ;\
	1312	sha256->digest[5] += d;\
	1313	__asm__ volatile("movl %"#S_6", %0":"=r"(d)::SSE_REGs) ;\
	1314	sha256->digest[6] += d;\
	1315	__asm__ volatile("movl %"#S_7", %0":"=r"(d)::SSE_REGs) ;\
	1316	sha256->digest[7] += d;\
	1317	}
	1318
	1319	#define _DumpS(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	1320	{ word32 d[8] ;\
	1321	__asm__ volatile("movl %"#S_0", %0":"=r"(d[0])::SSE_REGs) ;\
	1322	__asm__ volatile("movl %"#S_1", %0":"=r"(d[1])::SSE_REGs) ;\
	1323	__asm__ volatile("movl %"#S_2", %0":"=r"(d[2])::SSE_REGs) ;\
	1324	__asm__ volatile("movl %"#S_3", %0":"=r"(d[3])::SSE_REGs) ;\
	1325	__asm__ volatile("movl %"#S_4", %0":"=r"(d[4])::SSE_REGs) ;\
	1326	__asm__ volatile("movl %"#S_5", %0":"=r"(d[5])::SSE_REGs) ;\
	1327	__asm__ volatile("movl %"#S_6", %0":"=r"(d[6])::SSE_REGs) ;\
	1328	__asm__ volatile("movl %"#S_7", %0":"=r"(d[7])::SSE_REGs) ;\
	1329	printf("S[0..7]=%08x,%08x,%08x,%08x,%08x,%08x,%08x,%08x\n", d[0],d[1],d[2],d[3],d[4],d[5],d[6],d[7]);\
	1330	__asm__ volatile("movl %0, %"#S_0::"r"(d[0]):SSE_REGs) ;\
	1331	__asm__ volatile("movl %0, %"#S_1::"r"(d[1]):SSE_REGs) ;\
	1332	__asm__ volatile("movl %0, %"#S_2::"r"(d[2]):SSE_REGs) ;\
	1333	__asm__ volatile("movl %0, %"#S_3::"r"(d[3]):SSE_REGs) ;\
	1334	__asm__ volatile("movl %0, %"#S_4::"r"(d[4]):SSE_REGs) ;\
	1335	__asm__ volatile("movl %0, %"#S_5::"r"(d[5]):SSE_REGs) ;\
	1336	__asm__ volatile("movl %0, %"#S_6::"r"(d[6]):SSE_REGs) ;\
	1337	__asm__ volatile("movl %0, %"#S_7::"r"(d[7]):SSE_REGs) ;\
	1338	}
	1339
	1340
	1341	#define DigestToReg(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	1342	_DigestToReg(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )
	1343
	1344	#define RegToDigest(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	1345	_RegToDigest(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )
	1346
	1347	#define DumS(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )\
	1348	_DumpS(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7 )
	1349
	1350
	1351	/* Byte swap Masks to ensure that rest of the words are filled with zero's. */
	1352	static const unsigned long mBYTE_FLIP_MASK_16[] =
	1353	{ 0x0405060700010203, 0x0c0d0e0f08090a0b, 0x0405060700010203, 0x0c0d0e0f08090a0b } ;
	1354	static const unsigned long mBYTE_FLIP_MASK_15[] =
	1355	{ 0x0405060700010203, 0x0c0d0e0f08090a0b, 0x0405060700010203, 0x0c0d0e0f08090a0b } ;
	1356	static const unsigned long mBYTE_FLIP_MASK_7 [] =
	1357	{ 0x0405060700010203, 0x0c0d0e0f08090a0b, 0x0405060700010203, 0x8080808008090a0b } ;
	1358	static const unsigned long mBYTE_FLIP_MASK_2 [] =
	1359	{ 0x0405060700010203, 0x8080808080808080, 0x8080808080808080, 0x8080808080808080 } ;
	1360
	1361	static const unsigned long mMAPtoW_I_7[] =
	1362	{ 0x8080808080808080, 0x8080808080808080, 0x8080808080808080, 0x0302010080808080 } ;
	1363	static const unsigned long mMAP1toW_I_2[] =
	1364	{ 0x8080808080808080, 0x0706050403020100, 0x8080808080808080, 0x8080808080808080 } ;
	1365	static const unsigned long mMAP2toW_I_2[] =
	1366	{ 0x8080808080808080, 0x8080808080808080, 0x0f0e0d0c0b0a0908, 0x8080808080808080 } ;
	1367	static const unsigned long mMAP3toW_I_2[] =
	1368	{ 0x8080808080808080, 0x8080808080808080, 0x8080808080808080, 0x0706050403020100 } ;
	1369
	1370	static int Transform_AVX2(Sha256* sha256)
	1371	{
	1372
	1373	#ifdef WOLFSSL_SMALL_STACK
	1374	word32* W_K;
	1375	W_K = (word32) XMALLOC(sizeof(word32) 64, NULL, DYNAMIC_TYPE_TMP_BUFFER);
	1376	if (W_K == NULL)
	1377	return MEMORY_E;
	1378	#else
	1379	word32 W_K[64] ;
	1380	#endif
	1381
	1382	MOVE_to_REG(W_I_16, sha256->buffer[0]); BYTE_SWAP(W_I_16, mBYTE_FLIP_MASK_16[0]) ;
	1383	MOVE_to_REG(W_I_15, sha256->buffer[1]); BYTE_SWAP(W_I_15, mBYTE_FLIP_MASK_15[0]) ;
	1384	MOVE_to_REG(W_I, sha256->buffer[8]) ; BYTE_SWAP(W_I, mBYTE_FLIP_MASK_16[0]) ;
	1385	MOVE_to_REG(W_I_7, sha256->buffer[16-7]) ; BYTE_SWAP(W_I_7, mBYTE_FLIP_MASK_7[0]) ;
	1386	MOVE_to_REG(W_I_2, sha256->buffer[16-2]) ; BYTE_SWAP(W_I_2, mBYTE_FLIP_MASK_2[0]) ;
	1387
	1388	DigestToReg(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7) ;
	1389
	1390	ADD_MEM(W_K_TEMP, W_I_16, K[0]) ;
	1391	MOVE_to_MEM(W_K[0], W_K_TEMP) ;
	1392
	1393	RND_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,0) ;
	1394	RND_7(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,1) ;
	1395	RND_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,2) ;
	1396	RND_5(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,3) ;
	1397	RND_4(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,4) ;
	1398	RND_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,5) ;
	1399	RND_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,6) ;
	1400	RND_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,7) ;
	1401
	1402	ADD_MEM(YMM_TEMP0, W_I, K[8]) ;
	1403	MOVE_to_MEM(W_K[8], YMM_TEMP0) ;
	1404
	1405	/* W[i] = Gamma1(W[i-2]) + W[i-7] + Gamma0(W[i-15] + W[i-16]) */
	1406	RND_0_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,8) ;
	1407	GAMMA0_1(W_I_TEMP, W_I_15) ;
	1408	RND_0_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,8) ;
	1409	GAMMA0_2(W_I_TEMP, W_I_15) ;
	1410	RND_0_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,8) ;
	1411	ADD(W_I_TEMP, W_I_16, W_I_TEMP) ;/* for saving W_I before adding incomplete W_I_7 */
	1412	RND_7_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,9) ;
	1413	ADD(W_I, W_I_7, W_I_TEMP);
	1414	RND_7_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,9) ;
	1415	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1416	RND_7_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,9) ;
	1417	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1418	RND_6_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,10) ;
	1419	ADD(W_I, W_I, YMM_TEMP0) ;/* now W[16..17] are completed */
	1420	RND_6_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,10) ;
	1421	FEEDBACK1_to_W_I_2 ;
	1422	RND_6_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,10) ;
	1423	FEEDBACK_to_W_I_7 ;
	1424	RND_5_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,11) ;
	1425	ADD(W_I_TEMP, W_I_7, W_I_TEMP);
	1426	RND_5_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,11) ;
	1427	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1428	RND_5_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,11) ;
	1429	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1430	RND_4_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,12) ;
	1431	ADD(W_I, W_I_TEMP, YMM_TEMP0) ;/* now W[16..19] are completed */
	1432	RND_4_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,12) ;
	1433	FEEDBACK2_to_W_I_2 ;
	1434	RND_4_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,12) ;
	1435	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1436	RND_3_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,13) ;
	1437	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1438	RND_3_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,13) ;
	1439	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..21] are completed */
	1440	RND_3_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,13) ;
	1441	FEEDBACK3_to_W_I_2 ;
	1442	RND_2_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,14) ;
	1443	GAMMA1(YMM_TEMP0, W_I_2) ;
	1444	RND_2_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,14) ;
	1445	RND_2_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,14) ;
	1446	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..23] are completed */
	1447	RND_1_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,15) ;
	1448
	1449	MOVE_to_REG(YMM_TEMP0, K[16]) ;
	1450	RND_1_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,15) ;
	1451	ROTATE_W(W_I_16, W_I_15, W_I_7, W_I_2, W_I) ;
	1452	RND_1_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,15) ;
	1453	ADD(YMM_TEMP0, YMM_TEMP0, W_I) ;
	1454	MOVE_to_MEM(W_K[16], YMM_TEMP0) ;
	1455
	1456	/* W[i] = Gamma1(W[i-2]) + W[i-7] + Gamma0(W[i-15] + W[i-16]) */
	1457	RND_0_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,16) ;
	1458	GAMMA0_1(W_I_TEMP, W_I_15) ;
	1459	RND_0_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,16) ;
	1460	GAMMA0_2(W_I_TEMP, W_I_15) ;
	1461	RND_0_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,16) ;
	1462	ADD(W_I_TEMP, W_I_16, W_I_TEMP) ;/* for saving W_I before adding incomplete W_I_7 */
	1463	RND_7_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,17) ;
	1464	ADD(W_I, W_I_7, W_I_TEMP);
	1465	RND_7_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,17) ;
	1466	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1467	RND_7_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,17) ;
	1468	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1469	RND_6_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,18) ;
	1470	ADD(W_I, W_I, YMM_TEMP0) ;/* now W[16..17] are completed */
	1471	RND_6_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,18) ;
	1472	FEEDBACK1_to_W_I_2 ;
	1473	RND_6_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,18) ;
	1474	FEEDBACK_to_W_I_7 ;
	1475	RND_5_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,19) ;
	1476	ADD(W_I_TEMP, W_I_7, W_I_TEMP);
	1477	RND_5_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,19) ;
	1478	GAMMA1(YMM_TEMP0, W_I_2) ;
	1479	RND_5_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,19) ;
	1480	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1481	RND_4_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,20) ;
	1482	ADD(W_I, W_I_TEMP, YMM_TEMP0) ;/* now W[16..19] are completed */
	1483	RND_4_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,20) ;
	1484	FEEDBACK2_to_W_I_2 ;
	1485	RND_4_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,20) ;
	1486	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1487	RND_3_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,21) ;
	1488	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1489	RND_3_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,21) ;
	1490	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..21] are completed */
	1491	RND_3_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,21) ;
	1492	FEEDBACK3_to_W_I_2 ;
	1493	RND_2_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,22) ;
	1494	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1495	RND_2_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,22) ;
	1496	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1497	RND_2_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,22) ;
	1498	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..23] are completed */
	1499	RND_1_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,23) ;
	1500
	1501	MOVE_to_REG(YMM_TEMP0, K[24]) ;
	1502	RND_1_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,23) ;
	1503	ROTATE_W(W_I_16, W_I_15, W_I_7, W_I_2, W_I) ;
	1504	RND_1_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,23) ;
	1505	ADD(YMM_TEMP0, YMM_TEMP0, W_I) ;
	1506	MOVE_to_MEM(W_K[24], YMM_TEMP0) ;
	1507
	1508	/* W[i] = Gamma1(W[i-2]) + W[i-7] + Gamma0(W[i-15] + W[i-16]) */
	1509	RND_0_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,24) ;
	1510	GAMMA0_1(W_I_TEMP, W_I_15) ;
	1511	RND_0_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,24) ;
	1512	GAMMA0_2(W_I_TEMP, W_I_15) ;
	1513	RND_0_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,24) ;
	1514	ADD(W_I_TEMP, W_I_16, W_I_TEMP) ;/* for saving W_I before adding incomplete W_I_7 */
	1515	RND_7_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,25) ;
	1516	ADD(W_I, W_I_7, W_I_TEMP);
	1517	RND_7_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,25) ;
	1518	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1519	RND_7_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,25) ;
	1520	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1521	RND_6_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,26) ;
	1522	ADD(W_I, W_I, YMM_TEMP0) ;/* now W[16..17] are completed */
	1523	RND_6_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,26) ;
	1524	FEEDBACK1_to_W_I_2 ;
	1525	RND_6_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,26) ;
	1526	FEEDBACK_to_W_I_7 ;
	1527	RND_5_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,27) ;
	1528	ADD(W_I_TEMP, W_I_7, W_I_TEMP);
	1529	RND_5_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,27) ;
	1530	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1531	RND_5_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,27) ;
	1532	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1533	RND_4_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,28) ;
	1534	ADD(W_I, W_I_TEMP, YMM_TEMP0) ;/* now W[16..19] are completed */
	1535	RND_4_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,28) ;
	1536	FEEDBACK2_to_W_I_2 ;
	1537	RND_4_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,28) ;
	1538	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1539	RND_3_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,29) ;
	1540	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1541	RND_3_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,29) ;
	1542	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..21] are completed */
	1543	RND_3_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,29) ;
	1544	FEEDBACK3_to_W_I_2 ;
	1545	RND_2_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,30) ;
	1546	GAMMA1(YMM_TEMP0, W_I_2) ;
	1547	RND_2_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,30) ;
	1548	RND_2_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,30) ;
	1549	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..23] are completed */
	1550	RND_1_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,31) ;
	1551
	1552	MOVE_to_REG(YMM_TEMP0, K[32]) ;
	1553	RND_1_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,31) ;
	1554	ROTATE_W(W_I_16, W_I_15, W_I_7, W_I_2, W_I) ;
	1555	RND_1_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,31) ;
	1556	ADD(YMM_TEMP0, YMM_TEMP0, W_I) ;
	1557	MOVE_to_MEM(W_K[32], YMM_TEMP0) ;
	1558
	1559
	1560	/* W[i] = Gamma1(W[i-2]) + W[i-7] + Gamma0(W[i-15] + W[i-16]) */
	1561	RND_0_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,32) ;
	1562	GAMMA0_1(W_I_TEMP, W_I_15) ;
	1563	RND_0_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,32) ;
	1564	GAMMA0_2(W_I_TEMP, W_I_15) ;
	1565	RND_0_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,32) ;
	1566	ADD(W_I_TEMP, W_I_16, W_I_TEMP) ;/* for saving W_I before adding incomplete W_I_7 */
	1567	RND_7_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,33) ;
	1568	ADD(W_I, W_I_7, W_I_TEMP);
	1569	RND_7_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,33) ;
	1570	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1571	RND_7_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,33) ;
	1572	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1573	RND_6_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,34) ;
	1574	ADD(W_I, W_I, YMM_TEMP0) ;/* now W[16..17] are completed */
	1575	RND_6_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,34) ;
	1576	FEEDBACK1_to_W_I_2 ;
	1577	RND_6_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,34) ;
	1578	FEEDBACK_to_W_I_7 ;
	1579	RND_5_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,35) ;
	1580	ADD(W_I_TEMP, W_I_7, W_I_TEMP);
	1581	RND_5_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,35) ;
	1582	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1583	RND_5_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,35) ;
	1584	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1585	RND_4_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,36) ;
	1586	ADD(W_I, W_I_TEMP, YMM_TEMP0) ;/* now W[16..19] are completed */
	1587	RND_4_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,36) ;
	1588	FEEDBACK2_to_W_I_2 ;
	1589	RND_4_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,36) ;
	1590	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1591	RND_3_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,37) ;
	1592	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1593	RND_3_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,37) ;
	1594	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..21] are completed */
	1595	RND_3_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,37) ;
	1596	FEEDBACK3_to_W_I_2 ;
	1597	RND_2_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,38) ;
	1598	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1599	RND_2_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,38) ;
	1600	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1601	RND_2_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,38) ;
	1602	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..23] are completed */
	1603	RND_1_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,39) ;
	1604
	1605	MOVE_to_REG(YMM_TEMP0, K[40]) ;
	1606	RND_1_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,39) ;
	1607	ROTATE_W(W_I_16, W_I_15, W_I_7, W_I_2, W_I) ;
	1608	RND_1_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,39) ;
	1609	ADD(YMM_TEMP0, YMM_TEMP0, W_I) ;
	1610	MOVE_to_MEM(W_K[40], YMM_TEMP0) ;
	1611
	1612	/* W[i] = Gamma1(W[i-2]) + W[i-7] + Gamma0(W[i-15] + W[i-16]) */
	1613	RND_0_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,40) ;
	1614	GAMMA0_1(W_I_TEMP, W_I_15) ;
	1615	RND_0_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,40) ;
	1616	GAMMA0_2(W_I_TEMP, W_I_15) ;
	1617	RND_0_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,40) ;
	1618	ADD(W_I_TEMP, W_I_16, W_I_TEMP) ;/* for saving W_I before adding incomplete W_I_7 */
	1619	RND_7_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,41) ;
	1620	ADD(W_I, W_I_7, W_I_TEMP);
	1621	RND_7_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,41) ;
	1622	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1623	RND_7_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,41) ;
	1624	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1625	RND_6_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,42) ;
	1626	ADD(W_I, W_I, YMM_TEMP0) ;/* now W[16..17] are completed */
	1627	RND_6_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,42) ;
	1628	FEEDBACK1_to_W_I_2 ;
	1629	RND_6_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,42) ;
	1630	FEEDBACK_to_W_I_7 ;
	1631	RND_5_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,43) ;
	1632	ADD(W_I_TEMP, W_I_7, W_I_TEMP);
	1633	RND_5_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,43) ;
	1634	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1635	RND_5_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,43) ;
	1636	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1637	RND_4_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,44) ;
	1638	ADD(W_I, W_I_TEMP, YMM_TEMP0) ;/* now W[16..19] are completed */
	1639	RND_4_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,44) ;
	1640	FEEDBACK2_to_W_I_2 ;
	1641	RND_4_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,44) ;
	1642	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1643	RND_3_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,45) ;
	1644	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1645	RND_3_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,45) ;
	1646	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..21] are completed */
	1647	RND_3_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,45) ;
	1648	FEEDBACK3_to_W_I_2 ;
	1649	RND_2_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,46) ;
	1650	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1651	RND_2_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,46) ;
	1652	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1653	RND_2_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,46) ;
	1654	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..23] are completed */
	1655	RND_1_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,47) ;
	1656
	1657	MOVE_to_REG(YMM_TEMP0, K[48]) ;
	1658	RND_1_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,47) ;
	1659	ROTATE_W(W_I_16, W_I_15, W_I_7, W_I_2, W_I) ;
	1660	RND_1_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,47) ;
	1661	ADD(YMM_TEMP0, YMM_TEMP0, W_I) ;
	1662	MOVE_to_MEM(W_K[48], YMM_TEMP0) ;
	1663
	1664	/* W[i] = Gamma1(W[i-2]) + W[i-7] + Gamma0(W[i-15] + W[i-16]) */
	1665	RND_0_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,48) ;
	1666	GAMMA0_1(W_I_TEMP, W_I_15) ;
	1667	RND_0_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,48) ;
	1668	GAMMA0_2(W_I_TEMP, W_I_15) ;
	1669	RND_0_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,48) ;
	1670	ADD(W_I_TEMP, W_I_16, W_I_TEMP) ;/* for saving W_I before adding incomplete W_I_7 */
	1671	RND_7_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,49) ;
	1672	ADD(W_I, W_I_7, W_I_TEMP);
	1673	RND_7_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,49) ;
	1674	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1675	RND_7_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,49) ;
	1676	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1677	RND_6_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,50) ;
	1678	ADD(W_I, W_I, YMM_TEMP0) ;/* now W[16..17] are completed */
	1679	RND_6_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,50) ;
	1680	FEEDBACK1_to_W_I_2 ;
	1681	RND_6_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,50) ;
	1682	FEEDBACK_to_W_I_7 ;
	1683	RND_5_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,51) ;
	1684	ADD(W_I_TEMP, W_I_7, W_I_TEMP);
	1685	RND_5_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,51) ;
	1686	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1687	RND_5_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,51) ;
	1688	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1689	RND_4_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,52) ;
	1690	ADD(W_I, W_I_TEMP, YMM_TEMP0) ;/* now W[16..19] are completed */
	1691	RND_4_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,52) ;
	1692	FEEDBACK2_to_W_I_2 ;
	1693	RND_4_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,52) ;
	1694	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1695	RND_3_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,53) ;
	1696	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1697	RND_3_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,53) ;
	1698	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..21] are completed */
	1699	RND_3_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,53) ;
	1700	FEEDBACK3_to_W_I_2 ;
	1701	RND_2_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,54) ;
	1702	GAMMA1_1(YMM_TEMP0, W_I_2) ;
	1703	RND_2_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,54) ;
	1704	GAMMA1_2(YMM_TEMP0, W_I_2) ;
	1705	RND_2_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,54) ;
	1706	ADD(W_I, W_I_TEMP, YMM_TEMP0) ; /* now W[16..23] are completed */
	1707	RND_1_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,55) ;
	1708
	1709	MOVE_to_REG(YMM_TEMP0, K[56]) ;
	1710	RND_1_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,55) ;
	1711	ROTATE_W(W_I_16, W_I_15, W_I_7, W_I_2, W_I) ;
	1712	RND_1_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,55) ;
	1713	ADD(YMM_TEMP0, YMM_TEMP0, W_I) ;
	1714	MOVE_to_MEM(W_K[56], YMM_TEMP0) ;
	1715
	1716	RND_0(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,56) ;
	1717	RND_7(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,57) ;
	1718	RND_6(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,58) ;
	1719	RND_5(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,59) ;
	1720
	1721	RND_4(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,60) ;
	1722	RND_3(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,61) ;
	1723	RND_2(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,62) ;
	1724	RND_1(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7,63) ;
	1725
	1726	RegToDigest(S_0,S_1,S_2,S_3,S_4,S_5,S_6,S_7) ;
	1727
	1728	#ifdef WOLFSSL_SMALL_STACK
	1729	XFREE(W, NULL, DYNAMIC_TYPE_TMP_BUFFER);
	1730	#endif
	1731
	1732	return 0;
	1733	}
	1734
	1735	#endif /* HAVE_INTEL_AVX2 */
	1736
	1737	#endif /* HAVE_FIPS */
	1738
	1739	#endif /* WOLFSSL_TI_HAHS */
	1740
	1741	#endif /* NO_SHA256 */
	1742

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: UsbWattMeter/trunk/wolfssl-3.7.0/wolfcrypt/src/sha256.c@ 473

Download in other formats: