Context Navigation

sha256.c@ 389

Last change on this file since 389 was 389, checked in by coas-nagasima, 5 years ago
ビルドが通るよう更新
Property svn:eol-style set to `native` Property svn:mime-type set to `text/x-csrc;charset=UTF-8`
File size: 111.0 KB

Line
1	/* sha256.c
2	*
3	* Copyright (C) 2006-2017 wolfSSL Inc.
4	*
5	* This file is part of wolfSSL.
6	*
7	* wolfSSL is free software; you can redistribute it and/or modify
8	* it under the terms of the GNU General Public License as published by
9	* the Free Software Foundation; either version 2 of the License, or
10	* (at your option) any later version.
11	*
12	* wolfSSL is distributed in the hope that it will be useful,
13	* but WITHOUT ANY WARRANTY; without even the implied warranty of
14	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
15	* GNU General Public License for more details.
16	*
17	* You should have received a copy of the GNU General Public License
18	* along with this program; if not, write to the Free Software
19	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1335, USA
20	*/
21
22
23	/* code submitted by raphael.huck@efixo.com */
24
25	#ifdef HAVE_CONFIG_H
26	#include <config.h>
27	#endif
28
29	#include <wolfssl/wolfcrypt/settings.h>
30
31	#if !defined(NO_SHA256) && !defined(WOLFSSL_ARMASM)
32
33	#if defined(HAVE_FIPS) && \
34	defined(HAVE_FIPS_VERSION) && (HAVE_FIPS_VERSION >= 2)
35
36	/* set NO_WRAPPERS before headers, use direct internal f()s not wrappers */
37	#define FIPS_NO_WRAPPERS
38
39	#ifdef USE_WINDOWS_API
40	#pragma code_seg(".fipsA$d")
41	#pragma const_seg(".fipsB$d")
42	#endif
43	#endif
44
45	#include <wolfssl/wolfcrypt/sha256.h>
46	#include <wolfssl/wolfcrypt/error-crypt.h>
47	#include <wolfssl/wolfcrypt/cpuid.h>
48
49	/* fips wrapper calls, user can call direct */
50	#if defined(HAVE_FIPS) && \
51	(!defined(HAVE_FIPS_VERSION) \|\| (HAVE_FIPS_VERSION < 2))
52
53	int wc_InitSha256(wc_Sha256* sha)
54	{
55	if (sha == NULL) {
56	return BAD_FUNC_ARG;
57	}
58	return InitSha256_fips(sha);
59	}
60	int wc_InitSha256_ex(wc_Sha256* sha, void* heap, int devId)
61	{
62	(void)heap;
63	(void)devId;
64	if (sha == NULL) {
65	return BAD_FUNC_ARG;
66	}
67	return InitSha256_fips(sha);
68	}
69	int wc_Sha256Update(wc_Sha256* sha, const byte* data, word32 len)
70	{
71	if (sha == NULL \|\| (data == NULL && len > 0)) {
72	return BAD_FUNC_ARG;
73	}
74
75	if (data == NULL && len == 0) {
76	/* valid, but do nothing */
77	return 0;
78	}
79
80	return Sha256Update_fips(sha, data, len);
81	}
82	int wc_Sha256Final(wc_Sha256* sha, byte* out)
83	{
84	if (sha == NULL \|\| out == NULL) {
85	return BAD_FUNC_ARG;
86	}
87	return Sha256Final_fips(sha, out);
88	}
89	void wc_Sha256Free(wc_Sha256* sha)
90	{
91	(void)sha;
92	/* Not supported in FIPS */
93	}
94
95	#else /* else build without fips, or for FIPS v2 */
96
97
98	#if defined(WOLFSSL_TI_HASH)
99	/* #include <wolfcrypt/src/port/ti/ti-hash.c> included by wc_port.c */
100	#else
101
102	#include <wolfssl/wolfcrypt/logging.h>
103
104	#ifdef NO_INLINE
105	#include <wolfssl/wolfcrypt/misc.h>
106	#else
107	#define WOLFSSL_MISC_INCLUDED
108	#include <wolfcrypt/src/misc.c>
109	#endif
110
111	#ifdef WOLFSSL_DEVCRYPTO_HASH
112	#include <wolfssl/wolfcrypt/port/devcrypto/wc_devcrypto.h>
113	#endif
114
115
116
117	#if defined(USE_INTEL_SPEEDUP)
118	#if defined(__GNUC__) && ((__GNUC__ < 4) \|\| \
119	(__GNUC__ == 4 && __GNUC_MINOR__ <= 8))
120	#undef NO_AVX2_SUPPORT
121	#define NO_AVX2_SUPPORT
122	#endif
123	#if defined(__clang__) && ((__clang_major__ < 3) \|\| \
124	(__clang_major__ == 3 && __clang_minor__ <= 5))
125	#define NO_AVX2_SUPPORT
126	#elif defined(__clang__) && defined(NO_AVX2_SUPPORT)
127	#undef NO_AVX2_SUPPORT
128	#endif
129
130	#define HAVE_INTEL_AVX1
131	#ifndef NO_AVX2_SUPPORT
132	#define HAVE_INTEL_AVX2
133	#endif
134	#endif /* USE_INTEL_SPEEDUP */
135
136	#if defined(HAVE_INTEL_AVX2)
137	#define HAVE_INTEL_RORX
138	#endif
139
140
141	#if !defined(WOLFSSL_PIC32MZ_HASH) && !defined(STM32_HASH_SHA2) && \
142	(!defined(WOLFSSL_IMX6_CAAM) \|\| defined(NO_IMX6_CAAM_HASH)) && \
143	!defined(WOLFSSL_AFALG_HASH) && !defined(WOLFSSL_DEVCRYPTO_HASH)
144	static int InitSha256(wc_Sha256* sha256)
145	{
146	int ret = 0;
147
148	if (sha256 == NULL)
149	return BAD_FUNC_ARG;
150
151	XMEMSET(sha256->digest, 0, sizeof(sha256->digest));
152	sha256->digest[0] = 0x6A09E667L;
153	sha256->digest[1] = 0xBB67AE85L;
154	sha256->digest[2] = 0x3C6EF372L;
155	sha256->digest[3] = 0xA54FF53AL;
156	sha256->digest[4] = 0x510E527FL;
157	sha256->digest[5] = 0x9B05688CL;
158	sha256->digest[6] = 0x1F83D9ABL;
159	sha256->digest[7] = 0x5BE0CD19L;
160
161	sha256->buffLen = 0;
162	sha256->loLen = 0;
163	sha256->hiLen = 0;
164
165	return ret;
166	}
167	#endif
168
169
170	/* Hardware Acceleration */
171	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
172
173	/* in case intel instructions aren't available, plus we need the K[] global */
174	#define NEED_SOFT_SHA256
175
176	/*****
177	Intel AVX1/AVX2 Macro Control Structure
178
179	#define HAVE_INTEL_AVX1
180	#define HAVE_INTEL_AVX2
181
182	#define HAVE_INTEL_RORX
183
184
185	int InitSha256(wc_Sha256* sha256) {
186	Save/Recover XMM, YMM
187	...
188	}
189
190	#if defined(HAVE_INTEL_AVX1)\|\| defined(HAVE_INTEL_AVX2)
191	Transform_Sha256(); Function prototype
192	#else
193	Transform_Sha256() { }
194	int Sha256Final() {
195	Save/Recover XMM, YMM
196	...
197	}
198	#endif
199
200	#if defined(HAVE_INTEL_AVX1)\|\| defined(HAVE_INTEL_AVX2)
201	#if defined(HAVE_INTEL_RORX
202	#define RND with rorx instuction
203	#else
204	#define RND
205	#endif
206	#endif
207
208	#if defined(HAVE_INTEL_AVX1)
209
210	#define XMM Instructions/inline asm
211
212	int Transform_Sha256() {
213	Stitched Message Sched/Round
214	}
215
216	#elif defined(HAVE_INTEL_AVX2)
217
218	#define YMM Instructions/inline asm
219
220	int Transform_Sha256() {
221	More granural Stitched Message Sched/Round
222	}
223
224	#endif
225
226	*/
227
228	/* Each platform needs to query info type 1 from cpuid to see if aesni is
229	* supported. Also, let's setup a macro for proper linkage w/o ABI conflicts
230	*/
231
232	/* #if defined(HAVE_INTEL_AVX1/2) at the tail of sha256 */
233	static int Transform_Sha256(wc_Sha256* sha256);
234	#if defined(HAVE_INTEL_AVX1)
235	static int Transform_Sha256_AVX1(wc_Sha256 *sha256);
236	static int Transform_Sha256_AVX1_Len(wc_Sha256* sha256, word32 len);
237	#endif
238	#if defined(HAVE_INTEL_AVX2)
239	static int Transform_Sha256_AVX2(wc_Sha256 *sha256);
240	static int Transform_Sha256_AVX2_Len(wc_Sha256* sha256, word32 len);
241	#ifdef HAVE_INTEL_RORX
242	static int Transform_Sha256_AVX1_RORX(wc_Sha256 *sha256);
243	static int Transform_Sha256_AVX1_RORX_Len(wc_Sha256* sha256, word32 len);
244	static int Transform_Sha256_AVX2_RORX(wc_Sha256 *sha256);
245	static int Transform_Sha256_AVX2_RORX_Len(wc_Sha256* sha256, word32 len);
246	#endif
247	#endif
248	static int (Transform_Sha256_p)(wc_Sha256 sha256);
249	/* = _Transform_Sha256 */
250	static int (Transform_Sha256_Len_p)(wc_Sha256 sha256, word32 len);
251	/* = NULL */
252	static int transform_check = 0;
253	static word32 intel_flags;
254	#define XTRANSFORM(S) (*Transform_Sha256_p)((S))
255	#define XTRANSFORM_LEN(S, L) (*Transform_Sha256_Len_p)((S),(L))
256
257	static void Sha256_SetTransform(void)
258	{
259
260	if (transform_check)
261	return;
262
263	intel_flags = cpuid_get_flags();
264
265	#ifdef HAVE_INTEL_AVX2
266	if (IS_INTEL_AVX2(intel_flags)) {
267	#ifdef HAVE_INTEL_RORX
268	if (IS_INTEL_BMI2(intel_flags)) {
269	Transform_Sha256_p = Transform_Sha256_AVX2_RORX;
270	Transform_Sha256_Len_p = Transform_Sha256_AVX2_RORX_Len;
271	}
272	else
273	#endif
274	if (1)
275	{
276	Transform_Sha256_p = Transform_Sha256_AVX2;
277	Transform_Sha256_Len_p = Transform_Sha256_AVX2_Len;
278	}
279	#ifdef HAVE_INTEL_RORX
280	else {
281	Transform_Sha256_p = Transform_Sha256_AVX1_RORX;
282	Transform_Sha256_Len_p = Transform_Sha256_AVX1_RORX_Len;
283	}
284	#endif
285	}
286	else
287	#endif
288	#ifdef HAVE_INTEL_AVX1
289	if (IS_INTEL_AVX1(intel_flags)) {
290	Transform_Sha256_p = Transform_Sha256_AVX1;
291	Transform_Sha256_Len_p = Transform_Sha256_AVX1_Len;
292	}
293	else
294	#endif
295	{
296	Transform_Sha256_p = Transform_Sha256;
297	Transform_Sha256_Len_p = NULL;
298	}
299
300	transform_check = 1;
301	}
302
303	int wc_InitSha256_ex(wc_Sha256* sha256, void* heap, int devId)
304	{
305	int ret = 0;
306	if (sha256 == NULL)
307	return BAD_FUNC_ARG;
308
309	sha256->heap = heap;
310
311	ret = InitSha256(sha256);
312	if (ret != 0)
313	return ret;
314
315	/* choose best Transform function under this runtime environment */
316	Sha256_SetTransform();
317
318	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA256)
319	ret = wolfAsync_DevCtxInit(&sha256->asyncDev,
320	WOLFSSL_ASYNC_MARKER_SHA256, sha256->heap, devId);
321	#else
322	(void)devId;
323	#endif /* WOLFSSL_ASYNC_CRYPT */
324
325	return ret;
326	}
327
328	#elif defined(FREESCALE_LTC_SHA)
329	int wc_InitSha256_ex(wc_Sha256* sha256, void* heap, int devId)
330	{
331	(void)heap;
332	(void)devId;
333
334	LTC_HASH_Init(LTC_BASE, &sha256->ctx, kLTC_Sha256, NULL, 0);
335
336	return 0;
337	}
338
339	#elif defined(FREESCALE_MMCAU_SHA)
340
341	#ifdef FREESCALE_MMCAU_CLASSIC_SHA
342	#include "cau_api.h"
343	#else
344	#include "fsl_mmcau.h"
345	#endif
346
347	#define XTRANSFORM(S) Transform_Sha256((S))
348	#define XTRANSFORM_LEN(S,L) Transform_Sha256_Len((S),(L))
349
350	int wc_InitSha256_ex(wc_Sha256* sha256, void* heap, int devId)
351	{
352	int ret = 0;
353
354	(void)heap;
355	(void)devId;
356
357	ret = wolfSSL_CryptHwMutexLock();
358	if (ret != 0) {
359	return ret;
360	}
361	#ifdef FREESCALE_MMCAU_CLASSIC_SHA
362	cau_sha256_initialize_output(sha256->digest);
363	#else
364	MMCAU_SHA256_InitializeOutput((uint32_t*)sha256->digest);
365	#endif
366	wolfSSL_CryptHwMutexUnLock();
367
368	sha256->buffLen = 0;
369	sha256->loLen = 0;
370	sha256->hiLen = 0;
371
372	return ret;
373	}
374
375	static int Transform_Sha256(wc_Sha256* sha256)
376	{
377	int ret = wolfSSL_CryptHwMutexLock();
378	if (ret == 0) {
379	#ifdef FREESCALE_MMCAU_CLASSIC_SHA
380	cau_sha256_hash_n((byte*)sha256->buffer, 1, sha256->digest);
381	#else
382	MMCAU_SHA256_HashN((byte*)sha256->buffer, 1, sha256->digest);
383	#endif
384	wolfSSL_CryptHwMutexUnLock();
385	}
386	return ret;
387	}
388
389	#elif defined(WOLFSSL_PIC32MZ_HASH)
390	#include <wolfssl/wolfcrypt/port/pic32/pic32mz-crypt.h>
391
392	#elif defined(STM32_HASH_SHA2)
393
394	/* Supports CubeMX HAL or Standard Peripheral Library */
395
396	int wc_InitSha256_ex(wc_Sha256* sha256, void* heap, int devId)
397	{
398	if (sha256 == NULL)
399	return BAD_FUNC_ARG;
400
401	(void)devId;
402	(void)heap;
403
404	wc_Stm32_Hash_Init(&sha256->stmCtx);
405	return 0;
406	}
407
408	int wc_Sha256Update(wc_Sha256* sha256, const byte* data, word32 len)
409	{
410	int ret = 0;
411
412	if (sha256 == NULL \|\| (data == NULL && len > 0)) {
413	return BAD_FUNC_ARG;
414	}
415
416	ret = wolfSSL_CryptHwMutexLock();
417	if (ret == 0) {
418	ret = wc_Stm32_Hash_Update(&sha256->stmCtx,
419	HASH_AlgoSelection_SHA256, data, len);
420	wolfSSL_CryptHwMutexUnLock();
421	}
422	return ret;
423	}
424
425	int wc_Sha256Final(wc_Sha256* sha256, byte* hash)
426	{
427	int ret = 0;
428
429	if (sha256 == NULL \|\| hash == NULL) {
430	return BAD_FUNC_ARG;
431	}
432
433	ret = wolfSSL_CryptHwMutexLock();
434	if (ret == 0) {
435	ret = wc_Stm32_Hash_Final(&sha256->stmCtx,
436	HASH_AlgoSelection_SHA256, hash, WC_SHA256_DIGEST_SIZE);
437	wolfSSL_CryptHwMutexUnLock();
438	}
439
440	(void)wc_InitSha256(sha256); /* reset state */
441
442	return ret;
443	}
444
445	#elif defined(WOLFSSL_IMX6_CAAM) && !defined(NO_IMX6_CAAM_HASH)
446	/* functions defined in wolfcrypt/src/port/caam/caam_sha256.c */
447
448	#elif defined(WOLFSSL_AFALG_HASH)
449	/* implemented in wolfcrypt/src/port/af_alg/afalg_hash.c */
450
451	#elif defined(WOLFSSL_DEVCRYPTO_HASH)
452	/* implemented in wolfcrypt/src/port/devcrypto/devcrypt_hash.c */
453
454	#else
455	#define NEED_SOFT_SHA256
456
457	int wc_InitSha256_ex(wc_Sha256* sha256, void* heap, int devId)
458	{
459	int ret = 0;
460	if (sha256 == NULL)
461	return BAD_FUNC_ARG;
462
463	sha256->heap = heap;
464
465	ret = InitSha256(sha256);
466	if (ret != 0)
467	return ret;
468
469	#ifdef WOLFSSL_SMALL_STACK_CACHE
470	sha256->W = NULL;
471	#endif
472
473	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA256)
474	ret = wolfAsync_DevCtxInit(&sha256->asyncDev,
475	WOLFSSL_ASYNC_MARKER_SHA256, sha256->heap, devId);
476	#else
477	(void)devId;
478	#endif /* WOLFSSL_ASYNC_CRYPT */
479
480	return ret;
481	}
482	#endif /* End Hardware Acceleration */
483
484	#ifdef NEED_SOFT_SHA256
485
486	static const ALIGN32 word32 K[64] = {
487	0x428A2F98L, 0x71374491L, 0xB5C0FBCFL, 0xE9B5DBA5L, 0x3956C25BL,
488	0x59F111F1L, 0x923F82A4L, 0xAB1C5ED5L, 0xD807AA98L, 0x12835B01L,
489	0x243185BEL, 0x550C7DC3L, 0x72BE5D74L, 0x80DEB1FEL, 0x9BDC06A7L,
490	0xC19BF174L, 0xE49B69C1L, 0xEFBE4786L, 0x0FC19DC6L, 0x240CA1CCL,
491	0x2DE92C6FL, 0x4A7484AAL, 0x5CB0A9DCL, 0x76F988DAL, 0x983E5152L,
492	0xA831C66DL, 0xB00327C8L, 0xBF597FC7L, 0xC6E00BF3L, 0xD5A79147L,
493	0x06CA6351L, 0x14292967L, 0x27B70A85L, 0x2E1B2138L, 0x4D2C6DFCL,
494	0x53380D13L, 0x650A7354L, 0x766A0ABBL, 0x81C2C92EL, 0x92722C85L,
495	0xA2BFE8A1L, 0xA81A664BL, 0xC24B8B70L, 0xC76C51A3L, 0xD192E819L,
496	0xD6990624L, 0xF40E3585L, 0x106AA070L, 0x19A4C116L, 0x1E376C08L,
497	0x2748774CL, 0x34B0BCB5L, 0x391C0CB3L, 0x4ED8AA4AL, 0x5B9CCA4FL,
498	0x682E6FF3L, 0x748F82EEL, 0x78A5636FL, 0x84C87814L, 0x8CC70208L,
499	0x90BEFFFAL, 0xA4506CEBL, 0xBEF9A3F7L, 0xC67178F2L
500	};
501
502	#define Ch(x,y,z) ((z) ^ ((x) & ((y) ^ (z))))
503	#define Maj(x,y,z) ((((x) \| (y)) & (z)) \| ((x) & (y)))
504	#define R(x, n) (((x) & 0xFFFFFFFFU) >> (n))
505
506	#define S(x, n) rotrFixed(x, n)
507	#define Sigma0(x) (S(x, 2) ^ S(x, 13) ^ S(x, 22))
508	#define Sigma1(x) (S(x, 6) ^ S(x, 11) ^ S(x, 25))
509	#define Gamma0(x) (S(x, 7) ^ S(x, 18) ^ R(x, 3))
510	#define Gamma1(x) (S(x, 17) ^ S(x, 19) ^ R(x, 10))
511
512	#define a(i) S[(0-i) & 7]
513	#define b(i) S[(1-i) & 7]
514	#define c(i) S[(2-i) & 7]
515	#define d(i) S[(3-i) & 7]
516	#define e(i) S[(4-i) & 7]
517	#define f(i) S[(5-i) & 7]
518	#define g(i) S[(6-i) & 7]
519	#define h(i) S[(7-i) & 7]
520
521	#define RND(j) \
522	t0 = h(j) + Sigma1(e(j)) + Ch(e(j), f(j), g(j)) + K[i+j] + W[i+j]; \
523	t1 = Sigma0(a(j)) + Maj(a(j), b(j), c(j)); \
524	d(j) += t0; \
525	h(j) = t0 + t1
526
527	#ifndef XTRANSFORM
528	#define XTRANSFORM(S) Transform_Sha256((S))
529	#define XTRANSFORM_LEN(S,L) Transform_Sha256_Len((S),(L))
530	#endif
531
532	static int Transform_Sha256(wc_Sha256* sha256)
533	{
534	word32 S[8], t0, t1;
535	int i;
536
537	#ifdef WOLFSSL_SMALL_STACK_CACHE
538	word32* W = sha256->W;
539	if (W == NULL) {
540	W = (word32)XMALLOC(sizeof(word32) WC_SHA256_BLOCK_SIZE, NULL,
541	DYNAMIC_TYPE_DIGEST);
542	if (W == NULL)
543	return MEMORY_E;
544	sha256->W = W;
545	}
546	#elif defined(WOLFSSL_SMALL_STACK)
547	word32* W;
548	W = (word32)XMALLOC(sizeof(word32) WC_SHA256_BLOCK_SIZE, NULL,
549	DYNAMIC_TYPE_TMP_BUFFER);
550	if (W == NULL)
551	return MEMORY_E;
552	#else
553	word32 W[WC_SHA256_BLOCK_SIZE];
554	#endif
555
556	/* Copy context->state[] to working vars */
557	for (i = 0; i < 8; i++)
558	S[i] = sha256->digest[i];
559
560	for (i = 0; i < 16; i++)
561	W[i] = sha256->buffer[i];
562
563	for (i = 16; i < WC_SHA256_BLOCK_SIZE; i++)
564	W[i] = Gamma1(W[i-2]) + W[i-7] + Gamma0(W[i-15]) + W[i-16];
565
566	#ifdef USE_SLOW_SHA256
567	/* not unrolled - ~2k smaller and ~25% slower */
568	for (i = 0; i < WC_SHA256_BLOCK_SIZE; i += 8) {
569	int j;
570	for (j = 0; j < 8; j++) { /* braces needed here for macros {} */
571	RND(j);
572	}
573	}
574	#else
575	/* partially loop unrolled */
576	for (i = 0; i < WC_SHA256_BLOCK_SIZE; i += 8) {
577	RND(0); RND(1); RND(2); RND(3);
578	RND(4); RND(5); RND(6); RND(7);
579	}
580	#endif /* USE_SLOW_SHA256 */
581
582	/* Add the working vars back into digest state[] */
583	for (i = 0; i < 8; i++) {
584	sha256->digest[i] += S[i];
585	}
586
587	#if defined(WOLFSSL_SMALL_STACK) && !defined(WOLFSSL_SMALL_STACK_CACHE)
588	XFREE(W, NULL, DYNAMIC_TYPE_TMP_BUFFER);
589	#endif
590	return 0;
591	}
592	#endif
593	/* End wc_ software implementation */
594
595
596	#ifdef XTRANSFORM
597
598	static WC_INLINE void AddLength(wc_Sha256* sha256, word32 len)
599	{
600	word32 tmp = sha256->loLen;
601	if ( (sha256->loLen += len) < tmp)
602	sha256->hiLen++; /* carry low to high */
603	}
604
605	static WC_INLINE int Sha256Update(wc_Sha256* sha256, const byte* data, word32 len)
606	{
607	int ret = 0;
608	byte* local;
609
610	if (sha256 == NULL \|\| (data == NULL && len > 0)) {
611	return BAD_FUNC_ARG;
612	}
613
614	if (data == NULL && len == 0) {
615	/* valid, but do nothing */
616	return 0;
617	}
618
619	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA256)
620	if (sha256->asyncDev.marker == WOLFSSL_ASYNC_MARKER_SHA256) {
621	#if defined(HAVE_INTEL_QA)
622	return IntelQaSymSha256(&sha256->asyncDev, NULL, data, len);
623	#endif
624	}
625	#endif /* WOLFSSL_ASYNC_CRYPT */
626
627	/* do block size increments */
628	local = (byte*)sha256->buffer;
629
630	/* check that internal buffLen is valid */
631	if (sha256->buffLen >= WC_SHA256_BLOCK_SIZE)
632	return BUFFER_E;
633
634	if (sha256->buffLen > 0) {
635	word32 add = min(len, WC_SHA256_BLOCK_SIZE - sha256->buffLen);
636	XMEMCPY(&local[sha256->buffLen], data, add);
637
638	sha256->buffLen += add;
639	data += add;
640	len -= add;
641
642	if (sha256->buffLen == WC_SHA256_BLOCK_SIZE) {
643	#if defined(LITTLE_ENDIAN_ORDER) && !defined(FREESCALE_MMCAU_SHA)
644	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
645	if (!IS_INTEL_AVX1(intel_flags) && !IS_INTEL_AVX2(intel_flags))
646	#endif
647	{
648	ByteReverseWords(sha256->buffer, sha256->buffer,
649	WC_SHA256_BLOCK_SIZE);
650	}
651	#endif
652	ret = XTRANSFORM(sha256);
653	if (ret == 0) {
654	AddLength(sha256, WC_SHA256_BLOCK_SIZE);
655	sha256->buffLen = 0;
656	}
657	else
658	len = 0;
659	}
660	}
661
662	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
663	if (Transform_Sha256_Len_p != NULL) {
664	word32 blocksLen = len & ~(WC_SHA256_BLOCK_SIZE-1);
665
666	if (blocksLen > 0) {
667	AddLength(sha256, blocksLen);
668	sha256->data = data;
669	/* Byte reversal performed in function if required. */
670	XTRANSFORM_LEN(sha256, blocksLen);
671	data += blocksLen;
672	len -= blocksLen;
673	}
674	}
675	else
676	#endif
677	#if !defined(LITTLE_ENDIAN_ORDER) \|\| defined(FREESCALE_MMCAU_SHA) \|\| \
678	defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
679	{
680	word32 blocksLen = len & ~(WC_SHA256_BLOCK_SIZE-1);
681
682	AddLength(sha256, blocksLen);
683	while (len >= WC_SHA256_BLOCK_SIZE) {
684	XMEMCPY(local, data, WC_SHA256_BLOCK_SIZE);
685
686	data += WC_SHA256_BLOCK_SIZE;
687	len -= WC_SHA256_BLOCK_SIZE;
688
689	/* Byte reversal performed in function if required. */
690	ret = XTRANSFORM(sha256);
691	if (ret != 0)
692	break;
693	}
694	}
695	#else
696	{
697	word32 blocksLen = len & ~(WC_SHA256_BLOCK_SIZE-1);
698
699	AddLength(sha256, blocksLen);
700	while (len >= WC_SHA256_BLOCK_SIZE) {
701	XMEMCPY(local, data, WC_SHA256_BLOCK_SIZE);
702
703	data += WC_SHA256_BLOCK_SIZE;
704	len -= WC_SHA256_BLOCK_SIZE;
705
706	ByteReverseWords(sha256->buffer, sha256->buffer,
707	WC_SHA256_BLOCK_SIZE);
708	ret = XTRANSFORM(sha256);
709	if (ret != 0)
710	break;
711	}
712	}
713	#endif
714
715	if (len > 0) {
716	XMEMCPY(local, data, len);
717	sha256->buffLen = len;
718	}
719
720	return ret;
721	}
722
723	int wc_Sha256Update(wc_Sha256* sha256, const byte* data, word32 len)
724	{
725	return Sha256Update(sha256, data, len);
726	}
727
728	static WC_INLINE int Sha256Final(wc_Sha256* sha256)
729	{
730
731	int ret;
732	byte* local = (byte*)sha256->buffer;
733
734	if (sha256 == NULL) {
735	return BAD_FUNC_ARG;
736	}
737
738	AddLength(sha256, sha256->buffLen); /* before adding pads */
739	local[sha256->buffLen++] = 0x80; /* add 1 */
740
741	/* pad with zeros */
742	if (sha256->buffLen > WC_SHA256_PAD_SIZE) {
743	XMEMSET(&local[sha256->buffLen], 0,
744	WC_SHA256_BLOCK_SIZE - sha256->buffLen);
745	sha256->buffLen += WC_SHA256_BLOCK_SIZE - sha256->buffLen;
746
747	{
748	#if defined(LITTLE_ENDIAN_ORDER) && !defined(FREESCALE_MMCAU_SHA)
749	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
750	if (!IS_INTEL_AVX1(intel_flags) && !IS_INTEL_AVX2(intel_flags))
751	#endif
752	{
753	ByteReverseWords(sha256->buffer, sha256->buffer,
754	WC_SHA256_BLOCK_SIZE);
755	}
756	#endif
757	}
758
759	ret = XTRANSFORM(sha256);
760	if (ret != 0)
761	return ret;
762
763	sha256->buffLen = 0;
764	}
765	XMEMSET(&local[sha256->buffLen], 0, WC_SHA256_PAD_SIZE - sha256->buffLen);
766
767	/* put lengths in bits */
768	sha256->hiLen = (sha256->loLen >> (8 * sizeof(sha256->loLen) - 3)) +
769	(sha256->hiLen << 3);
770	sha256->loLen = sha256->loLen << 3;
771
772	/* store lengths */
773	#if defined(LITTLE_ENDIAN_ORDER) && !defined(FREESCALE_MMCAU_SHA)
774	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
775	if (!IS_INTEL_AVX1(intel_flags) && !IS_INTEL_AVX2(intel_flags))
776	#endif
777	{
778	ByteReverseWords(sha256->buffer, sha256->buffer,
779	WC_SHA256_BLOCK_SIZE);
780	}
781	#endif
782	/* ! length ordering dependent on digest endian type ! */
783	XMEMCPY(&local[WC_SHA256_PAD_SIZE], &sha256->hiLen, sizeof(word32));
784	XMEMCPY(&local[WC_SHA256_PAD_SIZE + sizeof(word32)], &sha256->loLen,
785	sizeof(word32));
786
787	#if defined(FREESCALE_MMCAU_SHA) \|\| defined(HAVE_INTEL_AVX1) \|\| \
788	defined(HAVE_INTEL_AVX2)
789	/* Kinetis requires only these bytes reversed */
790	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
791	if (IS_INTEL_AVX1(intel_flags) \|\| IS_INTEL_AVX2(intel_flags))
792	#endif
793	{
794	ByteReverseWords(
795	&sha256->buffer[WC_SHA256_PAD_SIZE / sizeof(word32)],
796	&sha256->buffer[WC_SHA256_PAD_SIZE / sizeof(word32)],
797	2 * sizeof(word32));
798	}
799	#endif
800
801	return XTRANSFORM(sha256);
802	}
803
804	int wc_Sha256FinalRaw(wc_Sha256* sha256, byte* hash)
805	{
806	#ifdef LITTLE_ENDIAN_ORDER
807	word32 digest[WC_SHA256_DIGEST_SIZE / sizeof(word32)];
808	#endif
809
810	if (sha256 == NULL \|\| hash == NULL) {
811	return BAD_FUNC_ARG;
812	}
813
814	#ifdef LITTLE_ENDIAN_ORDER
815	ByteReverseWords((word32)digest, (word32)sha256->digest,
816	WC_SHA256_DIGEST_SIZE);
817	XMEMCPY(hash, digest, WC_SHA256_DIGEST_SIZE);
818	#else
819	XMEMCPY(hash, sha256->digest, WC_SHA256_DIGEST_SIZE);
820	#endif
821
822	return 0;
823	}
824
825	int wc_Sha256Final(wc_Sha256* sha256, byte* hash)
826	{
827	int ret;
828
829	if (sha256 == NULL \|\| hash == NULL) {
830	return BAD_FUNC_ARG;
831	}
832
833	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA256)
834	if (sha256->asyncDev.marker == WOLFSSL_ASYNC_MARKER_SHA256) {
835	#if defined(HAVE_INTEL_QA)
836	return IntelQaSymSha256(&sha256->asyncDev, hash, NULL,
837	WC_SHA256_DIGEST_SIZE);
838	#endif
839	}
840	#endif /* WOLFSSL_ASYNC_CRYPT */
841
842	ret = Sha256Final(sha256);
843	if (ret != 0)
844	return ret;
845
846	#if defined(LITTLE_ENDIAN_ORDER)
847	ByteReverseWords(sha256->digest, sha256->digest, WC_SHA256_DIGEST_SIZE);
848	#endif
849	XMEMCPY(hash, sha256->digest, WC_SHA256_DIGEST_SIZE);
850
851	return InitSha256(sha256); /* reset state */
852	}
853
854	#endif /* XTRANSFORM */
855
856
857	#if defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2)
858
859	#define _LOAD_DIGEST() \
860	"movl (%[sha256]), %%r8d \n\t" \
861	"movl 4(%[sha256]), %%r9d \n\t" \
862	"movl 8(%[sha256]), %%r10d\n\t" \
863	"movl 12(%[sha256]), %%r11d\n\t" \
864	"movl 16(%[sha256]), %%r12d\n\t" \
865	"movl 20(%[sha256]), %%r13d\n\t" \
866	"movl 24(%[sha256]), %%r14d\n\t" \
867	"movl 28(%[sha256]), %%r15d\n\t"
868
869	#define _STORE_ADD_DIGEST() \
870	"addl %%r8d , (%[sha256])\n\t" \
871	"addl %%r9d , 4(%[sha256])\n\t" \
872	"addl %%r10d, 8(%[sha256])\n\t" \
873	"addl %%r11d, 12(%[sha256])\n\t" \
874	"addl %%r12d, 16(%[sha256])\n\t" \
875	"addl %%r13d, 20(%[sha256])\n\t" \
876	"addl %%r14d, 24(%[sha256])\n\t" \
877	"addl %%r15d, 28(%[sha256])\n\t"
878
879	#define _ADD_DIGEST() \
880	"addl (%[sha256]), %%r8d \n\t" \
881	"addl 4(%[sha256]), %%r9d \n\t" \
882	"addl 8(%[sha256]), %%r10d\n\t" \
883	"addl 12(%[sha256]), %%r11d\n\t" \
884	"addl 16(%[sha256]), %%r12d\n\t" \
885	"addl 20(%[sha256]), %%r13d\n\t" \
886	"addl 24(%[sha256]), %%r14d\n\t" \
887	"addl 28(%[sha256]), %%r15d\n\t"
888
889	#define _STORE_DIGEST() \
890	"movl %%r8d , (%[sha256])\n\t" \
891	"movl %%r9d , 4(%[sha256])\n\t" \
892	"movl %%r10d, 8(%[sha256])\n\t" \
893	"movl %%r11d, 12(%[sha256])\n\t" \
894	"movl %%r12d, 16(%[sha256])\n\t" \
895	"movl %%r13d, 20(%[sha256])\n\t" \
896	"movl %%r14d, 24(%[sha256])\n\t" \
897	"movl %%r15d, 28(%[sha256])\n\t"
898
899	#define LOAD_DIGEST() \
900	_LOAD_DIGEST()
901
902	#define STORE_ADD_DIGEST() \
903	_STORE_ADD_DIGEST()
904
905	#define ADD_DIGEST() \
906	_ADD_DIGEST()
907
908	#define STORE_DIGEST() \
909	_STORE_DIGEST()
910
911
912	#define S_0 %r8d
913	#define S_1 %r9d
914	#define S_2 %r10d
915	#define S_3 %r11d
916	#define S_4 %r12d
917	#define S_5 %r13d
918	#define S_6 %r14d
919	#define S_7 %r15d
920
921	#define L1 "%%edx"
922	#define L2 "%%ecx"
923	#define L3 "%%eax"
924	#define L4 "%%ebx"
925	#define WK "%%rsp"
926
927	#define WORK_REGS "eax", "ebx", "ecx", "edx"
928	#define STATE_REGS "r8","r9","r10","r11","r12","r13","r14","r15"
929	#define XMM_REGS "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6", \
930	"xmm7", "xmm8", "xmm9", "xmm10", "xmm11", "xmm12", "xmm13"
931
932	#if defined(HAVE_INTEL_RORX)
933	#define RND_STEP_RORX_0_1(a, b, c, d, e, f, g, h, i) \
934	/* L3 = f */ \
935	"movl %" #f ", " L3 "\n\t" \
936	/* L2 = e>>>11 */ \
937	"rorx $11, %" #e ", " L2 "\n\t" \
938	/* h += w_k */ \
939	"addl (" #i ")*4(" WK "), %" #h "\n\t" \
940
941	#define RND_STEP_RORX_0_2(a, b, c, d, e, f, g, h, i) \
942	/* L2 = (e>>>6) ^ (e>>>11) */ \
943	"xorl " L1 ", " L2 "\n\t" \
944	/* L3 = f ^ g */ \
945	"xorl %" #g ", " L3 "\n\t" \
946	/* L1 = e>>>25 */ \
947	"rorx $25, %" #e ", " L1 "\n\t" \
948
949	#define RND_STEP_RORX_0_3(a, b, c, d, e, f, g, h, i) \
950	/* L3 = (f ^ g) & e */ \
951	"andl %" #e ", " L3 "\n\t" \
952	/* L1 = Sigma1(e) */ \
953	"xorl " L2 ", " L1 "\n\t" \
954	/* L2 = a>>>13 */ \
955	"rorx $13, %" #a ", " L2 "\n\t" \
956
957	#define RND_STEP_RORX_0_4(a, b, c, d, e, f, g, h, i) \
958	/* h += Sigma1(e) */ \
959	"addl " L1 ", %" #h "\n\t" \
960	/* L1 = a>>>2 */ \
961	"rorx $2, %" #a ", " L1 "\n\t" \
962	/* L3 = Ch(e,f,g) */ \
963	"xorl %" #g ", " L3 "\n\t" \
964
965	#define RND_STEP_RORX_0_5(a, b, c, d, e, f, g, h, i) \
966	/* L2 = (a>>>2) ^ (a>>>13) */ \
967	"xorl " L1 ", " L2 "\n\t" \
968	/* L1 = a>>>22 */ \
969	"rorx $22, %" #a ", " L1 "\n\t" \
970	/* h += Ch(e,f,g) */ \
971	"addl " L3 ", %" #h "\n\t" \
972
973	#define RND_STEP_RORX_0_6(a, b, c, d, e, f, g, h, i) \
974	/* L1 = Sigma0(a) */ \
975	"xorl " L2 ", " L1 "\n\t" \
976	/* L3 = b */ \
977	"movl %" #b ", " L3 "\n\t" \
978	/* d += h + w_k + Sigma1(e) + Ch(e,f,g) */ \
979	"addl %" #h ", %" #d "\n\t" \
980
981	#define RND_STEP_RORX_0_7(a, b, c, d, e, f, g, h, i) \
982	/* L3 = a ^ b */ \
983	"xorl %" #a ", " L3 "\n\t" \
984	/* h += Sigma0(a) */ \
985	"addl " L1 ", %" #h "\n\t" \
986	/* L4 = (a ^ b) & (b ^ c) */ \
987	"andl " L3 ", " L4 "\n\t" \
988
989	#define RND_STEP_RORX_0_8(a, b, c, d, e, f, g, h, i) \
990	/* L4 = Maj(a,b,c) */ \
991	"xorl %" #b ", " L4 "\n\t" \
992	/* L1 = d>>>6 (= e>>>6 next RND) */ \
993	"rorx $6, %" #d ", " L1 "\n\t" \
994	/* h += Maj(a,b,c) */ \
995	"addl " L4 ", %" #h "\n\t" \
996
997	#define RND_STEP_RORX_1_1(a, b, c, d, e, f, g, h, i) \
998	/* L4 = f */ \
999	"movl %" #f ", " L4 "\n\t" \
1000	/* L2 = e>>>11 */ \
1001	"rorx $11, %" #e ", " L2 "\n\t" \
1002	/* h += w_k */ \
1003	"addl (" #i ")*4(" WK "), %" #h "\n\t" \
1004
1005	#define RND_STEP_RORX_1_2(a, b, c, d, e, f, g, h, i) \
1006	/* L2 = (e>>>6) ^ (e>>>11) */ \
1007	"xorl " L1 ", " L2 "\n\t" \
1008	/* L4 = f ^ g */ \
1009	"xorl %" #g ", " L4 "\n\t" \
1010	/* L1 = e>>>25 */ \
1011	"rorx $25, %" #e ", " L1 "\n\t" \
1012
1013	#define RND_STEP_RORX_1_3(a, b, c, d, e, f, g, h, i) \
1014	/* L4 = (f ^ g) & e */ \
1015	"andl %" #e ", " L4 "\n\t" \
1016	/* L1 = Sigma1(e) */ \
1017	"xorl " L2 ", " L1 "\n\t" \
1018	/* L2 = a>>>13 */ \
1019	"rorx $13, %" #a ", " L2 "\n\t" \
1020
1021	#define RND_STEP_RORX_1_4(a, b, c, d, e, f, g, h, i) \
1022	/* h += Sigma1(e) */ \
1023	"addl " L1 ", %" #h "\n\t" \
1024	/* L1 = a>>>2 */ \
1025	"rorx $2, %" #a ", " L1 "\n\t" \
1026	/* L4 = Ch(e,f,g) */ \
1027	"xorl %" #g ", " L4 "\n\t" \
1028
1029	#define RND_STEP_RORX_1_5(a, b, c, d, e, f, g, h, i) \
1030	/* L2 = (a>>>2) ^ (a>>>13) */ \
1031	"xorl " L1 ", " L2 "\n\t" \
1032	/* L1 = a>>>22 */ \
1033	"rorx $22, %" #a ", " L1 "\n\t" \
1034	/* h += Ch(e,f,g) */ \
1035	"addl " L4 ", %" #h "\n\t" \
1036
1037	#define RND_STEP_RORX_1_6(a, b, c, d, e, f, g, h, i) \
1038	/* L1 = Sigma0(a) */ \
1039	"xorl " L2 ", " L1 "\n\t" \
1040	/* L4 = b */ \
1041	"movl %" #b ", " L4 "\n\t" \
1042	/* d += h + w_k + Sigma1(e) + Ch(e,f,g) */ \
1043	"addl %"#h", %"#d"\n\t" \
1044
1045	#define RND_STEP_RORX_1_7(a, b, c, d, e, f, g, h, i) \
1046	/* L4 = a ^ b */ \
1047	"xorl %" #a ", " L4 "\n\t" \
1048	/* h += Sigma0(a) */ \
1049	"addl " L1 ", %" #h "\n\t" \
1050	/* L3 = (a ^ b) & (b ^ c) */ \
1051	"andl " L4 ", " L3 "\n\t" \
1052
1053	#define RND_STEP_RORX_1_8(a, b, c, d, e, f, g, h, i) \
1054	/* L3 = Maj(a,b,c) */ \
1055	"xorl %" #b ", " L3 "\n\t" \
1056	/* L1 = d>>>6 (= e>>>6 next RND) */ \
1057	"rorx $6, %" #d ", " L1 "\n\t" \
1058	/* h += Maj(a,b,c) */ \
1059	"addl " L3 ", %" #h "\n\t" \
1060
1061	#define _RND_RORX_X_0(a, b, c, d, e, f, g, h, i) \
1062	/* L1 = e>>>6 */ \
1063	"rorx $6, %" #e ", " L1 "\n\t" \
1064	/* L2 = e>>>11 */ \
1065	"rorx $11, %" #e ", " L2 "\n\t" \
1066	/* Prev RND: h += Maj(a,b,c) */ \
1067	"addl " L3 ", %" #a "\n\t" \
1068	/* h += w_k */ \
1069	"addl (" #i ")*4(" WK "), %" #h "\n\t" \
1070	/* L3 = f */ \
1071	"movl %" #f ", " L3 "\n\t" \
1072	/* L2 = (e>>>6) ^ (e>>>11) */ \
1073	"xorl " L1 ", " L2 "\n\t" \
1074	/* L3 = f ^ g */ \
1075	"xorl %" #g ", " L3 "\n\t" \
1076	/* L1 = e>>>25 */ \
1077	"rorx $25, %" #e ", " L1 "\n\t" \
1078	/* L1 = Sigma1(e) */ \
1079	"xorl " L2 ", " L1 "\n\t" \
1080	/* L3 = (f ^ g) & e */ \
1081	"andl %" #e ", " L3 "\n\t" \
1082	/* h += Sigma1(e) */ \
1083	"addl " L1 ", %" #h "\n\t" \
1084	/* L1 = a>>>2 */ \
1085	"rorx $2, %" #a ", " L1 "\n\t" \
1086	/* L2 = a>>>13 */ \
1087	"rorx $13, %" #a ", " L2 "\n\t" \
1088	/* L3 = Ch(e,f,g) */ \
1089	"xorl %" #g ", " L3 "\n\t" \
1090	/* L2 = (a>>>2) ^ (a>>>13) */ \
1091	"xorl " L1 ", " L2 "\n\t" \
1092	/* L1 = a>>>22 */ \
1093	"rorx $22, %" #a ", " L1 "\n\t" \
1094	/* h += Ch(e,f,g) */ \
1095	"addl " L3 ", %" #h "\n\t" \
1096	/* L1 = Sigma0(a) */ \
1097	"xorl " L2 ", " L1 "\n\t" \
1098	/* L3 = b */ \
1099	"movl %" #b ", " L3 "\n\t" \
1100	/* d += h + w_k + Sigma1(e) + Ch(e,f,g) */ \
1101	"addl %" #h ", %" #d "\n\t" \
1102	/* L3 = a ^ b */ \
1103	"xorl %" #a ", " L3 "\n\t" \
1104	/* L4 = (a ^ b) & (b ^ c) */ \
1105	"andl " L3 ", " L4 "\n\t" \
1106	/* h += Sigma0(a) */ \
1107	"addl " L1 ", %" #h "\n\t" \
1108	/* L4 = Maj(a,b,c) */ \
1109	"xorl %" #b ", " L4 "\n\t" \
1110
1111	#define _RND_RORX_X_1(a, b, c, d, e, f, g, h, i) \
1112	/* L1 = e>>>6 */ \
1113	"rorx $6, %" #e ", " L1 "\n\t" \
1114	/* L2 = e>>>11 */ \
1115	"rorx $11, %" #e ", " L2 "\n\t" \
1116	/* Prev RND: h += Maj(a,b,c) */ \
1117	"addl " L4 ", %" #a "\n\t" \
1118	/* h += w_k */ \
1119	"addl (" #i ")*4(" WK "), %" #h "\n\t" \
1120	/* L4 = f */ \
1121	"movl %" #f ", " L4 "\n\t" \
1122	/* L2 = (e>>>6) ^ (e>>>11) */ \
1123	"xorl " L1 ", " L2 "\n\t" \
1124	/* L4 = f ^ g */ \
1125	"xorl %" #g ", " L4 "\n\t" \
1126	/* L1 = e>>>25 */ \
1127	"rorx $25, %" #e ", " L1 "\n\t" \
1128	/* L1 = Sigma1(e) */ \
1129	"xorl " L2 ", " L1 "\n\t" \
1130	/* L4 = (f ^ g) & e */ \
1131	"andl %" #e ", " L4 "\n\t" \
1132	/* h += Sigma1(e) */ \
1133	"addl " L1 ", %" #h "\n\t" \
1134	/* L1 = a>>>2 */ \
1135	"rorx $2, %" #a ", " L1 "\n\t" \
1136	/* L2 = a>>>13 */ \
1137	"rorx $13, %" #a ", " L2 "\n\t" \
1138	/* L4 = Ch(e,f,g) */ \
1139	"xorl %" #g ", " L4 "\n\t" \
1140	/* L2 = (a>>>2) ^ (a>>>13) */ \
1141	"xorl " L1 ", " L2 "\n\t" \
1142	/* L1 = a>>>22 */ \
1143	"rorx $22, %" #a ", " L1 "\n\t" \
1144	/* h += Ch(e,f,g) */ \
1145	"addl " L4 ", %" #h "\n\t" \
1146	/* L1 = Sigma0(a) */ \
1147	"xorl " L2 ", " L1 "\n\t" \
1148	/* L4 = b */ \
1149	"movl %" #b ", " L4 "\n\t" \
1150	/* d += h + w_k + Sigma1(e) + Ch(e,f,g) */ \
1151	"addl %" #h ", %" #d "\n\t" \
1152	/* L4 = a ^ b */ \
1153	"xorl %" #a ", " L4 "\n\t" \
1154	/* L2 = (a ^ b) & (b ^ c) */ \
1155	"andl " L4 ", " L3 "\n\t" \
1156	/* h += Sigma0(a) */ \
1157	"addl " L1 ", %" #h "\n\t" \
1158	/* L3 = Maj(a,b,c) */ \
1159	"xorl %" #b ", " L3 "\n\t" \
1160
1161
1162	#define RND_RORX_X_0(a,b,c,d,e,f,g,h,i) \
1163	_RND_RORX_X_0(a,b,c,d,e,f,g,h,i)
1164	#define RND_RORX_X_1(a,b,c,d,e,f,g,h,i) \
1165	_RND_RORX_X_1(a,b,c,d,e,f,g,h,i)
1166
1167	#define RND_RORX_X4(a,b,c,d,e,f,g,h,i) \
1168	RND_RORX_X_0(a,b,c,d,e,f,g,h,i+0) \
1169	RND_RORX_X_1(h,a,b,c,d,e,f,g,i+1) \
1170	RND_RORX_X_0(g,h,a,b,c,d,e,f,i+2) \
1171	RND_RORX_X_1(f,g,h,a,b,c,d,e,i+3)
1172
1173	#endif /* HAVE_INTEL_RORX */
1174
1175	#define RND_STEP_0_1(a,b,c,d,e,f,g,h,i) \
1176	/* L1 = e>>>14 */ \
1177	"rorl $14, " L1 "\n\t" \
1178
1179	#define RND_STEP_0_2(a,b,c,d,e,f,g,h,i) \
1180	/* L3 = b */ \
1181	"movl %" #b ", " L3 "\n\t" \
1182	/* L2 = f */ \
1183	"movl %" #f ", " L2 "\n\t" \
1184	/* h += w_k */ \
1185	"addl (" #i ")*4(" WK "), %" #h "\n\t" \
1186	/* L2 = f ^ g */ \
1187	"xorl %" #g ", " L2 "\n\t" \
1188
1189	#define RND_STEP_0_3(a,b,c,d,e,f,g,h,i) \
1190	/* L1 = (e>>>14) ^ e */ \
1191	"xorl %" #e ", " L1 "\n\t" \
1192	/* L2 = (f ^ g) & e */ \
1193	"andl %" #e ", " L2 "\n\t" \
1194
1195	#define RND_STEP_0_4(a,b,c,d,e,f,g,h,i) \
1196	/* L1 = ((e>>>14) ^ e) >>> 5 */ \
1197	"rorl $5, " L1 "\n\t" \
1198	/* L2 = Ch(e,f,g) */ \
1199	"xorl %" #g ", " L2 "\n\t" \
1200	/* L1 = (((e>>>14) ^ e) >>> 5) ^ e */ \
1201	"xorl %" #e ", " L1 "\n\t" \
1202	/* h += Ch(e,f,g) */ \
1203	"addl " L2 ", %" #h "\n\t" \
1204
1205	#define RND_STEP_0_5(a,b,c,d,e,f,g,h,i) \
1206	/* L1 = ((((e>>>14) ^ e) >>> 5) ^ e) >>> 6 */ \
1207	"rorl $6, " L1 "\n\t" \
1208	/* L3 = a ^ b (= b ^ c of next RND) */ \
1209	"xorl %" #a ", " L3 "\n\t" \
1210	/* h = h + w_k + Sigma1(e) */ \
1211	"addl " L1 ", %" #h "\n\t" \
1212	/* L2 = a */ \
1213	"movl %" #a ", " L2 "\n\t" \
1214
1215	#define RND_STEP_0_6(a,b,c,d,e,f,g,h,i) \
1216	/* L3 = (a ^ b) & (b ^ c) */ \
1217	"andl " L3 ", " L4 "\n\t" \
1218	/* L2 = a>>>9 */ \
1219	"rorl $9, " L2 "\n\t" \
1220	/* L2 = (a>>>9) ^ a */ \
1221	"xorl %" #a ", " L2 "\n\t" \
1222	/* L1 = Maj(a,b,c) */ \
1223	"xorl %" #b ", " L4 "\n\t" \
1224
1225	#define RND_STEP_0_7(a,b,c,d,e,f,g,h,i) \
1226	/* L2 = ((a>>>9) ^ a) >>> 11 */ \
1227	"rorl $11, " L2 "\n\t" \
1228	/* d += h + w_k + Sigma1(e) + Ch(e,f,g) */ \
1229	"addl %" #h ", %" #d "\n\t" \
1230	/* L2 = (((a>>>9) ^ a) >>> 11) ^ a */ \
1231	"xorl %" #a ", " L2 "\n\t" \
1232	/* h = h + w_k + Sigma1(e) + Ch(e,f,g) + Maj(a,b,c) */ \
1233	"addl " L4 ", %" #h "\n\t" \
1234
1235	#define RND_STEP_0_8(a,b,c,d,e,f,g,h,i) \
1236	/* L2 = ((((a>>>9) ^ a) >>> 11) ^ a) >>> 2 */ \
1237	"rorl $2, " L2 "\n\t" \
1238	/* L1 = d (e of next RND) */ \
1239	"movl %" #d ", " L1 "\n\t" \
1240	/* h = h + w_k + Sigma1(e) Sigma0(a) + Ch(e,f,g) + Maj(a,b,c) */ \
1241	"addl " L2 ", %" #h "\n\t" \
1242
1243	#define RND_STEP_1_1(a,b,c,d,e,f,g,h,i) \
1244	/* L1 = e>>>14 */ \
1245	"rorl $14, " L1 "\n\t" \
1246
1247	#define RND_STEP_1_2(a,b,c,d,e,f,g,h,i) \
1248	/* L3 = b */ \
1249	"movl %" #b ", " L4 "\n\t" \
1250	/* L2 = f */ \
1251	"movl %" #f ", " L2 "\n\t" \
1252	/* h += w_k */ \
1253	"addl (" #i ")*4(" WK "), %" #h "\n\t" \
1254	/* L2 = f ^ g */ \
1255	"xorl %" #g ", " L2 "\n\t" \
1256
1257	#define RND_STEP_1_3(a,b,c,d,e,f,g,h,i) \
1258	/* L1 = (e>>>14) ^ e */ \
1259	"xorl %" #e ", " L1 "\n\t" \
1260	/* L2 = (f ^ g) & e */ \
1261	"andl %" #e ", " L2 "\n\t" \
1262
1263	#define RND_STEP_1_4(a,b,c,d,e,f,g,h,i) \
1264	/* L1 = ((e>>>14) ^ e) >>> 5 */ \
1265	"rorl $5, " L1 "\n\t" \
1266	/* L2 = Ch(e,f,g) */ \
1267	"xorl %" #g ", " L2 "\n\t" \
1268	/* L1 = (((e>>>14) ^ e) >>> 5) ^ e */ \
1269	"xorl %" #e ", " L1 "\n\t" \
1270	/* h += Ch(e,f,g) */ \
1271	"addl " L2 ", %" #h "\n\t" \
1272
1273	#define RND_STEP_1_5(a,b,c,d,e,f,g,h,i) \
1274	/* L1 = ((((e>>>14) ^ e) >>> 5) ^ e) >>> 6 */ \
1275	"rorl $6, " L1 "\n\t" \
1276	/* L4 = a ^ b (= b ^ c of next RND) */ \
1277	"xorl %" #a ", " L4 "\n\t" \
1278	/* h = h + w_k + Sigma1(e) */ \
1279	"addl " L1 ", %" #h "\n\t" \
1280	/* L2 = a */ \
1281	"movl %" #a ", " L2 "\n\t" \
1282
1283	#define RND_STEP_1_6(a,b,c,d,e,f,g,h,i) \
1284	/* L3 = (a ^ b) & (b ^ c) */ \
1285	"andl " L4 ", " L3 "\n\t" \
1286	/* L2 = a>>>9 */ \
1287	"rorl $9, " L2 "\n\t" \
1288	/* L2 = (a>>>9) ^ a */ \
1289	"xorl %" #a ", " L2 "\n\t" \
1290	/* L1 = Maj(a,b,c) */ \
1291	"xorl %" #b ", " L3 "\n\t" \
1292
1293	#define RND_STEP_1_7(a,b,c,d,e,f,g,h,i) \
1294	/* L2 = ((a>>>9) ^ a) >>> 11 */ \
1295	"rorl $11, " L2 "\n\t" \
1296	/* d += h + w_k + Sigma1(e) + Ch(e,f,g) */ \
1297	"addl %" #h ", %" #d "\n\t" \
1298	/* L2 = (((a>>>9) ^ a) >>> 11) ^ a */ \
1299	"xorl %" #a ", " L2 "\n\t" \
1300	/* h = h + w_k + Sigma1(e) + Ch(e,f,g) + Maj(a,b,c) */ \
1301	"addl " L3 ", %" #h "\n\t" \
1302
1303	#define RND_STEP_1_8(a,b,c,d,e,f,g,h,i) \
1304	/* L2 = ((((a>>>9) ^ a) >>> 11) ^ a) >>> 2 */ \
1305	"rorl $2, " L2 "\n\t" \
1306	/* L1 = d (e of next RND) */ \
1307	"movl %" #d ", " L1 "\n\t" \
1308	/* h = h + w_k + Sigma1(e) Sigma0(a) + Ch(e,f,g) + Maj(a,b,c) */ \
1309	"addl " L2 ", %" #h "\n\t" \
1310
1311	#define _RND_ALL_0(a,b,c,d,e,f,g,h,i) \
1312	/* h += w_k */ \
1313	"addl (" #i ")*4(" WK "), %" #h "\n\t" \
1314	/* L2 = f */ \
1315	"movl %" #f ", " L2 "\n\t" \
1316	/* L3 = b */ \
1317	"movl %" #b ", " L3 "\n\t" \
1318	/* L2 = f ^ g */ \
1319	"xorl %" #g ", " L2 "\n\t" \
1320	/* L1 = e>>>14 */ \
1321	"rorl $14, " L1 "\n\t" \
1322	/* L2 = (f ^ g) & e */ \
1323	"andl %" #e ", " L2 "\n\t" \
1324	/* L1 = (e>>>14) ^ e */ \
1325	"xorl %" #e ", " L1 "\n\t" \
1326	/* L2 = Ch(e,f,g) */ \
1327	"xorl %" #g ", " L2 "\n\t" \
1328	/* L1 = ((e>>>14) ^ e) >>> 5 */ \
1329	"rorl $5, " L1 "\n\t" \
1330	/* h += Ch(e,f,g) */ \
1331	"addl " L2 ", %" #h "\n\t" \
1332	/* L1 = (((e>>>14) ^ e) >>> 5) ^ e */ \
1333	"xorl %" #e ", " L1 "\n\t" \
1334	/* L3 = a ^ b */ \
1335	"xorl %" #a ", " L3 "\n\t" \
1336	/* L1 = ((((e>>>14) ^ e) >>> 5) ^ e) >>> 6 */ \
1337	"rorl $6, " L1 "\n\t" \
1338	/* L2 = a */ \
1339	"movl %" #a ", " L2 "\n\t" \
1340	/* h = h + w_k + Sigma1(e) */ \
1341	"addl " L1 ", %" #h "\n\t" \
1342	/* L2 = a>>>9 */ \
1343	"rorl $9, " L2 "\n\t" \
1344	/* L3 = (a ^ b) & (b ^ c) */ \
1345	"andl " L3 ", " L4 "\n\t" \
1346	/* L2 = (a>>>9) ^ a */ \
1347	"xorl %" #a ", " L2 "\n\t" \
1348	/* L1 = Maj(a,b,c) */ \
1349	"xorl %" #b ", " L4 "\n\t" \
1350	/* L2 = ((a>>>9) ^ a) >>> 11 */ \
1351	"rorl $11, " L2 "\n\t" \
1352	/* d += h + w_k + Sigma1(e) + Ch(e,f,g) */ \
1353	"addl %" #h ", %" #d "\n\t" \
1354	/* L2 = (((a>>>9) ^ a) >>> 11) ^ a */ \
1355	"xorl %" #a ", " L2 "\n\t" \
1356	/* h = h + w_k + Sigma1(e) + Ch(e,f,g) + Maj(a,b,c) */ \
1357	"addl " L4 ", %" #h "\n\t" \
1358	/* L2 = ((((a>>>9) ^ a) >>> 11) ^ a) >>> 2 */ \
1359	"rorl $2, " L2 "\n\t" \
1360	/* L1 = d (e of next RND) */ \
1361	"movl %" #d ", " L1 "\n\t" \
1362	/* h = h + w_k + Sigma1(e) Sigma0(a) + Ch(e,f,g) + Maj(a,b,c) */ \
1363	"addl " L2 ", %" #h "\n\t" \
1364
1365	#define _RND_ALL_1(a,b,c,d,e,f,g,h,i) \
1366	/* h += w_k */ \
1367	"addl (" #i ")*4(" WK "), %" #h "\n\t" \
1368	/* L2 = f */ \
1369	"movl %" #f ", " L2 "\n\t" \
1370	/* L3 = b */ \
1371	"movl %" #b ", " L4 "\n\t" \
1372	/* L2 = f ^ g */ \
1373	"xorl %" #g ", " L2 "\n\t" \
1374	/* L1 = e>>>14 */ \
1375	"rorl $14, " L1 "\n\t" \
1376	/* L2 = (f ^ g) & e */ \
1377	"andl %" #e ", " L2 "\n\t" \
1378	/* L1 = (e>>>14) ^ e */ \
1379	"xorl %" #e ", " L1 "\n\t" \
1380	/* L2 = Ch(e,f,g) */ \
1381	"xorl %" #g ", " L2 "\n\t" \
1382	/* L1 = ((e>>>14) ^ e) >>> 5 */ \
1383	"rorl $5, " L1 "\n\t" \
1384	/* h += Ch(e,f,g) */ \
1385	"addl " L2 ", %" #h "\n\t" \
1386	/* L1 = (((e>>>14) ^ e) >>> 5) ^ e */ \
1387	"xorl %" #e ", " L1 "\n\t" \
1388	/* L3 = a ^ b */ \
1389	"xorl %" #a ", " L4 "\n\t" \
1390	/* L1 = ((((e>>>14) ^ e) >>> 5) ^ e) >>> 6 */ \
1391	"rorl $6, " L1 "\n\t" \
1392	/* L2 = a */ \
1393	"movl %" #a ", " L2 "\n\t" \
1394	/* h = h + w_k + Sigma1(e) */ \
1395	"addl " L1 ", %" #h "\n\t" \
1396	/* L2 = a>>>9 */ \
1397	"rorl $9, " L2 "\n\t" \
1398	/* L3 = (a ^ b) & (b ^ c) */ \
1399	"andl " L4 ", " L3 "\n\t" \
1400	/* L2 = (a>>>9) ^ a */ \
1401	"xorl %" #a", " L2 "\n\t" \
1402	/* L1 = Maj(a,b,c) */ \
1403	"xorl %" #b ", " L3 "\n\t" \
1404	/* L2 = ((a>>>9) ^ a) >>> 11 */ \
1405	"rorl $11, " L2 "\n\t" \
1406	/* d += h + w_k + Sigma1(e) + Ch(e,f,g) */ \
1407	"addl %"#h", %"#d"\n\t" \
1408	/* L2 = (((a>>>9) ^ a) >>> 11) ^ a */ \
1409	"xorl %" #a ", " L2 "\n\t" \
1410	/* h = h + w_k + Sigma1(e) + Ch(e,f,g) + Maj(a,b,c) */ \
1411	"addl " L3 ", %" #h "\n\t" \
1412	/* L2 = ((((a>>>9) ^ a) >>> 11) ^ a) >>> 2 */ \
1413	"rorl $2, " L2 "\n\t" \
1414	/* L1 = d (e of next RND) */ \
1415	"movl %" #d ", " L1 "\n\t" \
1416	/* h = h + w_k + Sigma1(e) Sigma0(a) + Ch(e,f,g) + Maj(a,b,c) */ \
1417	"addl " L2 ", %" #h "\n\t" \
1418
1419
1420	#define RND_ALL_0(a, b, c, d, e, f, g, h, i) \
1421	_RND_ALL_0(a, b, c, d, e, f, g, h, i)
1422	#define RND_ALL_1(a, b, c, d, e, f, g, h, i) \
1423	_RND_ALL_1(a, b, c, d, e, f, g, h, i)
1424
1425	#define RND_ALL_4(a, b, c, d, e, f, g, h, i) \
1426	RND_ALL_0(a, b, c, d, e, f, g, h, i+0) \
1427	RND_ALL_1(h, a, b, c, d, e, f, g, i+1) \
1428	RND_ALL_0(g, h, a, b, c, d, e, f, i+2) \
1429	RND_ALL_1(f, g, h, a, b, c, d, e, i+3)
1430
1431	#endif /* defined(HAVE_INTEL_AVX1) \|\| defined(HAVE_INTEL_AVX2) */
1432
1433	#if defined(HAVE_INTEL_AVX1) /* inline Assember for Intel AVX1 instructions */
1434
1435	#define _VPALIGNR(op1, op2, op3, op4) \
1436	"vpalignr $"#op4", %"#op3", %"#op2", %"#op1"\n\t"
1437	#define VPALIGNR(op1, op2, op3, op4) \
1438	_VPALIGNR(op1, op2, op3, op4)
1439	#define _VPADDD(op1, op2, op3) \
1440	"vpaddd %"#op3", %"#op2", %"#op1"\n\t"
1441	#define VPADDD(op1, op2, op3) \
1442	_VPADDD(op1, op2, op3)
1443	#define _VPSRLD(op1, op2, op3) \
1444	"vpsrld $"#op3", %"#op2", %"#op1"\n\t"
1445	#define VPSRLD(op1, op2, op3) \
1446	_VPSRLD(op1, op2, op3)
1447	#define _VPSRLQ(op1, op2, op3) \
1448	"vpsrlq $"#op3", %"#op2", %"#op1"\n\t"
1449	#define VPSRLQ(op1,op2,op3) \
1450	_VPSRLQ(op1,op2,op3)
1451	#define _VPSLLD(op1,op2,op3) \
1452	"vpslld $"#op3", %"#op2", %"#op1"\n\t"
1453	#define VPSLLD(op1,op2,op3) \
1454	_VPSLLD(op1,op2,op3)
1455	#define _VPOR(op1,op2,op3) \
1456	"vpor %"#op3", %"#op2", %"#op1"\n\t"
1457	#define VPOR(op1,op2,op3) \
1458	_VPOR(op1,op2,op3)
1459	#define _VPXOR(op1,op2,op3) \
1460	"vpxor %"#op3", %"#op2", %"#op1"\n\t"
1461	#define VPXOR(op1,op2,op3) \
1462	_VPXOR(op1,op2,op3)
1463	#define _VPSHUFD(op1,op2,op3) \
1464	"vpshufd $"#op3", %"#op2", %"#op1"\n\t"
1465	#define VPSHUFD(op1,op2,op3) \
1466	_VPSHUFD(op1,op2,op3)
1467	#define _VPSHUFB(op1,op2,op3) \
1468	"vpshufb %"#op3", %"#op2", %"#op1"\n\t"
1469	#define VPSHUFB(op1,op2,op3) \
1470	_VPSHUFB(op1,op2,op3)
1471	#define _VPSLLDQ(op1,op2,op3) \
1472	"vpslldq $" #op3", %" #op2", %" #op1"\n\t"
1473	#define VPSLLDQ(op1,op2,op3) \
1474	_VPSLLDQ(op1,op2,op3)
1475
1476	#define MsgSched(X0,X1,X2,X3,a,b,c,d,e,f,g,h,_i) \
1477	RND_STEP_0_1(a,b,c,d,e,f,g,h,_i) \
1478	VPALIGNR (XTMP1, X1, X0, 4) /* XTMP1 = W[-15] */\
1479	VPALIGNR (XTMP0, X3, X2, 4) /* XTMP0 = W[-7] */ \
1480	RND_STEP_0_2(a,b,c,d,e,f,g,h,_i) \
1481	RND_STEP_0_3(a,b,c,d,e,f,g,h,_i) \
1482	VPSRLD (XTMP2, XTMP1, 7) /* XTMP2 = W[-15] >> 7 */ \
1483	VPSLLD (XTMP3, XTMP1, 25) /* XTEMP3 = W[-15] << (32-7) */ \
1484	RND_STEP_0_4(a,b,c,d,e,f,g,h,_i) \
1485	RND_STEP_0_5(a,b,c,d,e,f,g,h,_i) \
1486	VPSRLD (XTMP4, XTMP1, 18) /* XTEMP4 = W[-15] >> 18 */ \
1487	VPSLLD (XTMP5, XTMP1, 14) /* XTEMP5 = W[-15] << (32-18) */ \
1488	RND_STEP_0_6(a,b,c,d,e,f,g,h,_i) \
1489	RND_STEP_0_7(a,b,c,d,e,f,g,h,_i) \
1490	VPOR (XTMP2, XTMP3, XTMP2) /* XTMP2 = W[-15] >>> 7 */ \
1491	VPOR (XTMP4, XTMP5, XTMP4) /* XTMP4 = W[-15] >>> 18 */ \
1492	RND_STEP_0_8(a,b,c,d,e,f,g,h,_i) \
1493	RND_STEP_1_1(h,a,b,c,d,e,f,g,_i+1) \
1494	RND_STEP_1_2(h,a,b,c,d,e,f,g,_i+1) \
1495	VPSRLD (XTMP5, XTMP1, 3) /* XTMP4 = W[-15] >> 3 */ \
1496	VPXOR (XTMP2, XTMP4, XTMP2) \
1497	/* XTMP2 = W[-15] MY_ROR 7 ^ W[-15] MY_ROR 18 */ \
1498	RND_STEP_1_3(h,a,b,c,d,e,f,g,_i+1) \
1499	RND_STEP_1_4(h,a,b,c,d,e,f,g,_i+1) \
1500	VPXOR (XTMP1, XTMP5, XTMP2) /* XTMP1 = s0 */ \
1501	VPSHUFD(XTMP2, X3, 0b11111010) /* XTMP2 = W[-2] {BBAA}*/\
1502	RND_STEP_1_5(h,a,b,c,d,e,f,g,_i+1) \
1503	RND_STEP_1_6(h,a,b,c,d,e,f,g,_i+1) \
1504	VPSRLD (XTMP4, XTMP2, 10) /* XTMP4 = W[-2] >> 10 {BBAA} */\
1505	VPSRLQ (XTMP3, XTMP2, 19) /* XTMP3 = W[-2] MY_ROR 19 {xBxA} */\
1506	RND_STEP_1_7(h,a,b,c,d,e,f,g,_i+1) \
1507	RND_STEP_1_8(h,a,b,c,d,e,f,g,_i+1) \
1508	RND_STEP_0_1(g,h,a,b,c,d,e,f,_i+2) \
1509	VPSRLQ (XTMP2, XTMP2, 17) /* XTMP2 = W[-2] MY_ROR 17 {xBxA} */\
1510	VPADDD (XTMP0, XTMP0, X0) \
1511	RND_STEP_0_2(g,h,a,b,c,d,e,f,_i+2) \
1512	RND_STEP_0_3(g,h,a,b,c,d,e,f,_i+2) \
1513	RND_STEP_0_4(g,h,a,b,c,d,e,f,_i+2) \
1514	VPXOR (XTMP2, XTMP3, XTMP2) \
1515	VPADDD (XTMP0, XTMP0, XTMP1) /* XTMP0 = W[-16] + W[-7] + s0 */ \
1516	RND_STEP_0_5(g,h,a,b,c,d,e,f,_i+2) \
1517	VPXOR (XTMP4, XTMP4, XTMP2) /* XTMP4 = s1 {xBxA} */\
1518	RND_STEP_0_6(g,h,a,b,c,d,e,f,_i+2) \
1519	VPSHUFB (XTMP4, XTMP4, SHUF_00BA) /* XTMP4 = s1 {00BA} */\
1520	RND_STEP_0_7(g,h,a,b,c,d,e,f,_i+2) \
1521	VPADDD (XTMP0, XTMP0, XTMP4) /* XTMP0 = {..., ..., W[1], W[0]} */\
1522	RND_STEP_0_8(g,h,a,b,c,d,e,f,_i+2) \
1523	RND_STEP_1_1(f,g,h,a,b,c,d,e,_i+3) \
1524	VPSHUFD (XTMP2, XTMP0, 0b01010000) /* XTMP2 = W[-2] {DDCC} */\
1525	RND_STEP_1_2(f,g,h,a,b,c,d,e,_i+3) \
1526	VPSRLQ (XTMP4, XTMP2, 17) /* XTMP4 = W[-2] MY_ROR 17 {xDxC} */ \
1527	VPSRLQ (XTMP3, XTMP2, 19) /* XTMP3 = W[-2] MY_ROR 19 {xDxC} */\
1528	RND_STEP_1_3(f,g,h,a,b,c,d,e,_i+3) \
1529	RND_STEP_1_4(f,g,h,a,b,c,d,e,_i+3) \
1530	VPSRLD (XTMP5, XTMP2, 10) /* XTMP5 = W[-2] >> 10 {DDCC} */ \
1531	VPXOR (XTMP4, XTMP3, XTMP4) \
1532	RND_STEP_1_5(f,g,h,a,b,c,d,e,_i+3) \
1533	RND_STEP_1_6(f,g,h,a,b,c,d,e,_i+3) \
1534	VPXOR (XTMP5, XTMP4, XTMP5) /* XTMP5 = s1 {xDxC} */ \
1535	RND_STEP_1_7(f,g,h,a,b,c,d,e,_i+3) \
1536	VPSHUFB (XTMP5, XTMP5, SHUF_DC00) /* XTMP5 = s1 {DC00} */\
1537	RND_STEP_1_8(f,g,h,a,b,c,d,e,_i+3) \
1538	VPADDD (X0, XTMP5, XTMP0) /* X0 = {W[3], W[2], W[1], W[0]} */
1539
1540	#if defined(HAVE_INTEL_RORX)
1541
1542	#define MsgSched_RORX(X0,X1,X2,X3,a,b,c,d,e,f,g,h,_i) \
1543	RND_STEP_RORX_0_1(a,b,c,d,e,f,g,h,_i) \
1544	VPALIGNR (XTMP0, X3, X2, 4)\
1545	VPALIGNR (XTMP1, X1, X0, 4) /* XTMP1 = W[-15] */\
1546	RND_STEP_RORX_0_2(a,b,c,d,e,f,g,h,_i) \
1547	RND_STEP_RORX_0_3(a,b,c,d,e,f,g,h,_i) \
1548	VPSRLD (XTMP2, XTMP1, 7)\
1549	VPSLLD (XTMP3, XTMP1, 25) /* VPSLLD (XTMP3, XTMP1, (32-7)) */\
1550	RND_STEP_RORX_0_4(a,b,c,d,e,f,g,h,_i) \
1551	RND_STEP_RORX_0_5(a,b,c,d,e,f,g,h,_i) \
1552	VPSRLD (XTMP4, XTMP1, 3) /* XTMP4 = W[-15] >> 3 */ \
1553	VPOR (XTMP3, XTMP3, XTMP2) /* XTMP1 = W[-15] MY_ROR 7 */\
1554	RND_STEP_RORX_0_6(a,b,c,d,e,f,g,h,_i) \
1555	RND_STEP_RORX_0_7(a,b,c,d,e,f,g,h,_i) \
1556	RND_STEP_RORX_0_8(a,b,c,d,e,f,g,h,_i) \
1557	\
1558	RND_STEP_RORX_1_1(h,a,b,c,d,e,f,g,_i+1) \
1559	VPSRLD (XTMP2, XTMP1,18) \
1560	RND_STEP_RORX_1_2(h,a,b,c,d,e,f,g,_i+1) \
1561	VPSLLD (XTMP1, XTMP1, 14) /* VPSLLD (XTMP1, XTMP1, (32-18)) */\
1562	RND_STEP_RORX_1_3(h,a,b,c,d,e,f,g,_i+1) \
1563	VPXOR (XTMP3, XTMP3, XTMP1)\
1564	RND_STEP_RORX_1_4(h,a,b,c,d,e,f,g,_i+1) \
1565	VPXOR (XTMP3, XTMP3, XTMP2) \
1566	/* XTMP1 = W[-15] MY_ROR 7 ^ W[-15] MY_ROR 18 */ \
1567	RND_STEP_RORX_1_5(h,a,b,c,d,e,f,g,_i+1) \
1568	VPSHUFD(XTMP2, X3, 0b11111010) /* XTMP2 = W[-2] {BBAA}*/\
1569	RND_STEP_RORX_1_6(h,a,b,c,d,e,f,g,_i+1) \
1570	VPXOR (XTMP1, XTMP3, XTMP4) /* XTMP1 = s0 */ \
1571	RND_STEP_RORX_1_7(h,a,b,c,d,e,f,g,_i+1) \
1572	VPSRLD (XTMP4, XTMP2, 10) /* XTMP4 = W[-2] >> 10 {BBAA} */\
1573	RND_STEP_RORX_1_8(h,a,b,c,d,e,f,g,_i+1) \
1574	\
1575	RND_STEP_RORX_0_1(g,h,a,b,c,d,e,f,_i+2) \
1576	VPSRLQ (XTMP3, XTMP2, 19) /* XTMP3 = W[-2] MY_ROR 19 {xBxA} */\
1577	RND_STEP_RORX_0_2(g,h,a,b,c,d,e,f,_i+2) \
1578	VPSRLQ (XTMP2, XTMP2, 17) /* XTMP2 = W[-2] MY_ROR 17 {xBxA} */\
1579	VPADDD (XTMP0, XTMP0, X0) \
1580	RND_STEP_RORX_0_3(g,h,a,b,c,d,e,f,_i+2) \
1581	VPADDD (XTMP0, XTMP0, XTMP1) /* XTMP0 = W[-16] + W[-7] + s0 */ \
1582	RND_STEP_RORX_0_4(g,h,a,b,c,d,e,f,_i+2) \
1583	VPXOR (XTMP2, XTMP2, XTMP3)\
1584	RND_STEP_RORX_0_5(g,h,a,b,c,d,e,f,_i+2) \
1585	VPXOR (XTMP4, XTMP4, XTMP2) /* XTMP4 = s1 {xBxA} */\
1586	RND_STEP_RORX_0_6(g,h,a,b,c,d,e,f,_i+2) \
1587	VPSHUFB (XTMP4, XTMP4, SHUF_00BA) /* XTMP4 = s1 {00BA} */\
1588	RND_STEP_RORX_0_7(g,h,a,b,c,d,e,f,_i+2) \
1589	VPADDD (XTMP0, XTMP0, XTMP4) /* XTMP0 = {..., ..., W[1], W[0]} */\
1590	RND_STEP_RORX_0_8(g,h,a,b,c,d,e,f,_i+2) \
1591	\
1592	RND_STEP_RORX_1_1(f,g,h,a,b,c,d,e,_i+3) \
1593	VPSHUFD (XTMP2, XTMP0, 0b01010000) /* XTMP2 = W[-2] {DDCC} */\
1594	RND_STEP_RORX_1_2(f,g,h,a,b,c,d,e,_i+3) \
1595	VPSRLD (XTMP5, XTMP2, 10) /* XTMP5 = W[-2] >> 10 {DDCC} */\
1596	RND_STEP_RORX_1_3(f,g,h,a,b,c,d,e,_i+3) \
1597	VPSRLQ (XTMP3, XTMP2, 19) /* XTMP3 = W[-2] MY_ROR 19 {xDxC} */\
1598	RND_STEP_RORX_1_4(f,g,h,a,b,c,d,e,_i+3) \
1599	VPSRLQ (XTMP2, XTMP2, 17) /* XTMP2 = W[-2] MY_ROR 17 {xDxC} */\
1600	RND_STEP_RORX_1_5(f,g,h,a,b,c,d,e,_i+3) \
1601	VPXOR (XTMP2, XTMP2, XTMP3)\
1602	RND_STEP_RORX_1_6(f,g,h,a,b,c,d,e,_i+3) \
1603	VPXOR (XTMP5, XTMP5, XTMP2) /* XTMP5 = s1 {xDxC} */\
1604	RND_STEP_RORX_1_7(f,g,h,a,b,c,d,e,_i+3) \
1605	VPSHUFB (XTMP5, XTMP5, SHUF_DC00) /* XTMP5 = s1 {DC00} */\
1606	RND_STEP_RORX_1_8(f,g,h,a,b,c,d,e,_i+3) \
1607	VPADDD (X0, XTMP5, XTMP0) /* X0 = {W[3], W[2], W[1], W[0]} */
1608
1609	#endif /* HAVE_INTEL_RORX */
1610
1611
1612	#define _W_K_from_buff(X0, X1, X2, X3, BYTE_FLIP_MASK) \
1613	"# X0, X1, X2, X3 = W[0..15]\n\t" \
1614	"vmovdqu (%%rax), %" #X0 "\n\t" \
1615	"vmovdqu 16(%%rax), %" #X1 "\n\t" \
1616	VPSHUFB(X0, X0, BYTE_FLIP_MASK) \
1617	VPSHUFB(X1, X1, BYTE_FLIP_MASK) \
1618	"vmovdqu 32(%%rax), %" #X2 "\n\t" \
1619	"vmovdqu 48(%%rax), %" #X3 "\n\t" \
1620	VPSHUFB(X2, X2, BYTE_FLIP_MASK) \
1621	VPSHUFB(X3, X3, BYTE_FLIP_MASK)
1622
1623	#define W_K_from_buff(X0, X1, X2, X3, BYTE_FLIP_MASK) \
1624	_W_K_from_buff(X0, X1, X2, X3, BYTE_FLIP_MASK)
1625
1626
1627	#define _SET_W_K_XFER_4(i) \
1628	"vpaddd (" #i "*4)+ 0+%[K], %%xmm0, %%xmm4\n\t" \
1629	"vpaddd (" #i "*4)+16+%[K], %%xmm1, %%xmm5\n\t" \
1630	"vmovdqu %%xmm4, (" WK ")\n\t" \
1631	"vmovdqu %%xmm5, 16(" WK ")\n\t" \
1632	"vpaddd (" #i "*4)+32+%[K], %%xmm2, %%xmm6\n\t" \
1633	"vpaddd (" #i "*4)+48+%[K], %%xmm3, %%xmm7\n\t" \
1634	"vmovdqu %%xmm6, 32(" WK ")\n\t" \
1635	"vmovdqu %%xmm7, 48(" WK ")\n\t"
1636
1637	#define SET_W_K_XFER_4(i) \
1638	_SET_W_K_XFER_4(i)
1639
1640
1641	static const ALIGN32 word64 mSHUF_00BA[] =
1642	{ 0x0b0a090803020100, 0xFFFFFFFFFFFFFFFF }; /* shuffle xBxA -> 00BA */
1643	static const ALIGN32 word64 mSHUF_DC00[] =
1644	{ 0xFFFFFFFFFFFFFFFF, 0x0b0a090803020100 }; /* shuffle xDxC -> DC00 */
1645	static const ALIGN32 word64 mBYTE_FLIP_MASK[] =
1646	{ 0x0405060700010203, 0x0c0d0e0f08090a0b };
1647
1648	#define _Init_Masks(mask1, mask2, mask3) \
1649	"vmovdqa %[FLIP], %" #mask1 "\n\t" \
1650	"vmovdqa %[SHUF00BA], %" #mask2 "\n\t" \
1651	"vmovdqa %[SHUFDC00], %" #mask3 "\n\t"
1652
1653	#define Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)\
1654	_Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)
1655
1656	#define X0 %xmm0
1657	#define X1 %xmm1
1658	#define X2 %xmm2
1659	#define X3 %xmm3
1660
1661	#define XTMP0 %xmm4
1662	#define XTMP1 %xmm5
1663	#define XTMP2 %xmm6
1664	#define XTMP3 %xmm7
1665	#define XTMP4 %xmm8
1666	#define XTMP5 %xmm9
1667	#define XFER %xmm10
1668
1669	#define SHUF_00BA %xmm11 /* shuffle xBxA -> 00BA */
1670	#define SHUF_DC00 %xmm12 /* shuffle xDxC -> DC00 */
1671	#define BYTE_FLIP_MASK %xmm13
1672
1673
1674	SHA256_NOINLINE static int Transform_Sha256_AVX1(wc_Sha256* sha256)
1675	{
1676	__asm__ __volatile__ (
1677
1678	"subq $64, %%rsp\n\t"
1679
1680	"leaq 32(%[sha256]), %%rax\n\t"
1681	Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)
1682	LOAD_DIGEST()
1683
1684	W_K_from_buff(X0, X1, X2, X3, BYTE_FLIP_MASK)
1685
1686	"movl %%r9d, " L4 "\n\t"
1687	"movl %%r12d, " L1 "\n\t"
1688	"xorl %%r10d, " L4 "\n\t"
1689
1690	SET_W_K_XFER_4(0)
1691	MsgSched(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1692	MsgSched(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1693	MsgSched(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1694	MsgSched(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1695
1696	SET_W_K_XFER_4(16)
1697	MsgSched(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1698	MsgSched(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1699	MsgSched(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1700	MsgSched(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1701
1702	SET_W_K_XFER_4(32)
1703	MsgSched(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1704	MsgSched(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1705	MsgSched(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1706	MsgSched(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1707
1708	SET_W_K_XFER_4(48)
1709	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1710	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1711	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1712	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1713
1714	STORE_ADD_DIGEST()
1715
1716	"addq $64, %%rsp\n\t"
1717
1718	:
1719	: [FLIP] "m" (mBYTE_FLIP_MASK[0]),
1720	[SHUF00BA] "m" (mSHUF_00BA[0]),
1721	[SHUFDC00] "m" (mSHUF_DC00[0]),
1722	[sha256] "r" (sha256),
1723	[K] "m" (K)
1724	: WORK_REGS, STATE_REGS, XMM_REGS, "memory"
1725	);
1726
1727	return 0;
1728	}
1729
1730	SHA256_NOINLINE static int Transform_Sha256_AVX1_Len(wc_Sha256* sha256,
1731	word32 len)
1732	{
1733	__asm__ __volatile__ (
1734
1735	"subq $64, %%rsp\n\t"
1736	"movq 120(%[sha256]), %%rax\n\t"
1737
1738	Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)
1739	LOAD_DIGEST()
1740
1741	"# Start of loop processing a block\n"
1742	"1:\n\t"
1743
1744	W_K_from_buff(X0, X1, X2, X3, BYTE_FLIP_MASK)
1745
1746	"movl %%r9d, " L4 "\n\t"
1747	"movl %%r12d, " L1 "\n\t"
1748	"xorl %%r10d, " L4 "\n\t"
1749
1750	SET_W_K_XFER_4(0)
1751	MsgSched(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1752	MsgSched(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1753	MsgSched(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1754	MsgSched(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1755
1756	SET_W_K_XFER_4(16)
1757	MsgSched(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1758	MsgSched(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1759	MsgSched(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1760	MsgSched(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1761
1762	SET_W_K_XFER_4(32)
1763	MsgSched(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1764	MsgSched(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1765	MsgSched(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1766	MsgSched(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1767
1768	SET_W_K_XFER_4(48)
1769	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1770	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1771	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1772	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1773	"movq 120(%[sha256]), %%rax\n\t"
1774
1775	ADD_DIGEST()
1776
1777	"addq $64, %%rax\n\t"
1778	"subl $64, %[len]\n\t"
1779
1780	STORE_DIGEST()
1781
1782	"movq %%rax, 120(%[sha256])\n\t"
1783	"jnz 1b\n\t"
1784
1785	"addq $64, %%rsp\n\t"
1786
1787	:
1788	: [FLIP] "m" (mBYTE_FLIP_MASK[0]),
1789	[SHUF00BA] "m" (mSHUF_00BA[0]),
1790	[SHUFDC00] "m" (mSHUF_DC00[0]),
1791	[sha256] "r" (sha256),
1792	[len] "r" (len),
1793	[K] "m" (K)
1794	: WORK_REGS, STATE_REGS, XMM_REGS, "memory"
1795	);
1796
1797	return 0;
1798	}
1799	#endif /* HAVE_INTEL_AVX1 */
1800
1801	#if defined(HAVE_INTEL_AVX2) && defined(HAVE_INTEL_RORX)
1802	SHA256_NOINLINE static int Transform_Sha256_AVX1_RORX(wc_Sha256* sha256)
1803	{
1804	__asm__ __volatile__ (
1805
1806	"subq $64, %%rsp\n\t"
1807
1808	Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)
1809	"leaq 32(%[sha256]), %%rax\n\t"
1810	W_K_from_buff(X0, X1, X2, X3, BYTE_FLIP_MASK)
1811
1812	LOAD_DIGEST()
1813
1814	SET_W_K_XFER_4(0)
1815	"movl %%r9d, " L4 "\n\t"
1816	"rorx $6, %%r12d, " L1 "\n\t"
1817	"xorl %%r10d, " L4 "\n\t"
1818	MsgSched_RORX(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1819	MsgSched_RORX(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1820	MsgSched_RORX(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1821	MsgSched_RORX(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1822
1823	SET_W_K_XFER_4(16)
1824	MsgSched_RORX(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1825	MsgSched_RORX(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1826	MsgSched_RORX(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1827	MsgSched_RORX(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1828
1829	SET_W_K_XFER_4(32)
1830	MsgSched_RORX(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1831	MsgSched_RORX(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1832	MsgSched_RORX(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1833	MsgSched_RORX(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1834
1835	SET_W_K_XFER_4(48)
1836	"xorl " L3 ", " L3 "\n\t"
1837	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1838	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1839	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1840	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1841	/* Prev RND: h += Maj(a,b,c) */
1842	"addl " L3 ", %%r8d\n\t"
1843
1844	STORE_ADD_DIGEST()
1845
1846	"addq $64, %%rsp\n\t"
1847
1848	:
1849	: [FLIP] "m" (mBYTE_FLIP_MASK[0]),
1850	[SHUF00BA] "m" (mSHUF_00BA[0]),
1851	[SHUFDC00] "m" (mSHUF_DC00[0]),
1852	[sha256] "r" (sha256),
1853	[K] "m" (K)
1854	: WORK_REGS, STATE_REGS, XMM_REGS, "memory"
1855	);
1856
1857	return 0;
1858	}
1859
1860	SHA256_NOINLINE static int Transform_Sha256_AVX1_RORX_Len(wc_Sha256* sha256,
1861	word32 len)
1862	{
1863	__asm__ __volatile__ (
1864
1865	"subq $64, %%rsp\n\t"
1866	"movq 120(%[sha256]), %%rax\n\t"
1867
1868	Init_Masks(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)
1869	LOAD_DIGEST()
1870
1871	"# Start of loop processing a block\n"
1872	"1:\n\t"
1873
1874	W_K_from_buff(X0, X1, X2, X3, BYTE_FLIP_MASK)
1875
1876	SET_W_K_XFER_4(0)
1877	"movl %%r9d, " L4 "\n\t"
1878	"rorx $6, %%r12d, " L1 "\n\t"
1879	"xorl %%r10d, " L4 "\n\t"
1880	MsgSched_RORX(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1881	MsgSched_RORX(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1882	MsgSched_RORX(X2, X3, X0, X1, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 8)
1883	MsgSched_RORX(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1884
1885	SET_W_K_XFER_4(16)
1886	MsgSched_RORX(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1887	MsgSched_RORX(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1888	MsgSched_RORX(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1889	MsgSched_RORX(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1890
1891	SET_W_K_XFER_4(32)
1892	MsgSched_RORX(X0, X1, X2, X3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1893	MsgSched_RORX(X1, X2, X3, X0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1894	MsgSched_RORX(X2, X3, X0, X1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1895	MsgSched_RORX(X3, X0, X1, X2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1896
1897	SET_W_K_XFER_4(48)
1898	"xorl " L3 ", " L3 "\n\t"
1899	"xorl " L2 ", " L2 "\n\t"
1900	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
1901	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 4)
1902	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 8)
1903	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
1904	/* Prev RND: h += Maj(a,b,c) */
1905	"addl " L3 ", %%r8d\n\t"
1906	"movq 120(%[sha256]), %%rax\n\t"
1907
1908	ADD_DIGEST()
1909
1910	"addq $64, %%rax\n\t"
1911	"subl $64, %[len]\n\t"
1912
1913	STORE_DIGEST()
1914
1915	"movq %%rax, 120(%[sha256])\n\t"
1916	"jnz 1b\n\t"
1917
1918	"addq $64, %%rsp\n\t"
1919
1920	:
1921	: [FLIP] "m" (mBYTE_FLIP_MASK[0]),
1922	[SHUF00BA] "m" (mSHUF_00BA[0]),
1923	[SHUFDC00] "m" (mSHUF_DC00[0]),
1924	[sha256] "r" (sha256),
1925	[len] "r" (len),
1926	[K] "m" (K)
1927	: WORK_REGS, STATE_REGS, XMM_REGS, "memory"
1928	);
1929
1930	return 0;
1931	}
1932	#endif /* HAVE_INTEL_AVX2 && HAVE_INTEL_RORX */
1933
1934
1935	#if defined(HAVE_INTEL_AVX2)
1936	#define Y0 %ymm0
1937	#define Y1 %ymm1
1938	#define Y2 %ymm2
1939	#define Y3 %ymm3
1940
1941	#define YTMP0 %ymm4
1942	#define YTMP1 %ymm5
1943	#define YTMP2 %ymm6
1944	#define YTMP3 %ymm7
1945	#define YTMP4 %ymm8
1946	#define YTMP5 %ymm9
1947	#define YXFER %ymm10
1948
1949	#define SHUF_Y_00BA %ymm11 /* shuffle xBxA -> 00BA */
1950	#define SHUF_Y_DC00 %ymm12 /* shuffle xDxC -> DC00 */
1951	#define BYTE_FLIP_Y_MASK %ymm13
1952
1953	#define YMM_REGS "ymm0", "ymm1", "ymm2", "ymm3", "ymm4", "ymm5", "ymm6", \
1954	"ymm7", "ymm8", "ymm9", "ymm10", "ymm11", "ymm12", "ymm13"
1955
1956	#define MsgSched_Y(Y0,Y1,Y2,Y3,a,b,c,d,e,f,g,h,_i) \
1957	RND_STEP_0_1(a,b,c,d,e,f,g,h,_i) \
1958	VPALIGNR (YTMP1, Y1, Y0, 4) /* YTMP1 = W[-15] */ \
1959	VPALIGNR (YTMP0, Y3, Y2, 4) /* YTMP0 = W[-7] */ \
1960	RND_STEP_0_2(a,b,c,d,e,f,g,h,_i) \
1961	RND_STEP_0_3(a,b,c,d,e,f,g,h,_i) \
1962	VPSRLD (YTMP2, YTMP1, 7) /* YTMP2 = W[-15] >> 7 */ \
1963	VPSLLD (YTMP3, YTMP1, 25) /* YTEMP3 = W[-15] << (32-7) */ \
1964	RND_STEP_0_4(a,b,c,d,e,f,g,h,_i) \
1965	RND_STEP_0_5(a,b,c,d,e,f,g,h,_i) \
1966	VPSRLD (YTMP4, YTMP1, 18) /* YTEMP4 = W[-15] >> 18 */ \
1967	VPSLLD (YTMP5, YTMP1, 14) /* YTEMP5 = W[-15] << (32-18) */ \
1968	RND_STEP_0_6(a,b,c,d,e,f,g,h,_i) \
1969	RND_STEP_0_7(a,b,c,d,e,f,g,h,_i) \
1970	VPOR (YTMP2, YTMP3, YTMP2) /* YTMP2 = W[-15] >>> 7 */ \
1971	VPOR (YTMP4, YTMP5, YTMP4) /* YTMP4 = W[-15] >>> 18 */ \
1972	RND_STEP_0_8(a,b,c,d,e,f,g,h,_i) \
1973	RND_STEP_1_1(h,a,b,c,d,e,f,g,_i+1) \
1974	RND_STEP_1_2(h,a,b,c,d,e,f,g,_i+1) \
1975	VPSRLD (YTMP5, YTMP1, 3) /* YTMP4 = W[-15] >> 3 */ \
1976	VPXOR (YTMP2, YTMP4, YTMP2) /* YTMP2 = W[-15] >>> 7 ^ W[-15] >>> 18 */ \
1977	RND_STEP_1_3(h,a,b,c,d,e,f,g,_i+1) \
1978	RND_STEP_1_4(h,a,b,c,d,e,f,g,_i+1) \
1979	VPXOR (YTMP1, YTMP5, YTMP2) /* YTMP1 = s0 */ \
1980	VPSHUFD (YTMP2, Y3, 0b11111010) /* YTMP2 = W[-2] {BBAA}*/ \
1981	RND_STEP_1_5(h,a,b,c,d,e,f,g,_i+1) \
1982	RND_STEP_1_6(h,a,b,c,d,e,f,g,_i+1) \
1983	VPSRLD (YTMP4, YTMP2, 10) /* YTMP4 = W[-2] >> 10 {BBAA} */ \
1984	VPSRLQ (YTMP3, YTMP2, 19) /* YTMP3 = W[-2] MY_ROR 19 {xBxA} */ \
1985	RND_STEP_1_7(h,a,b,c,d,e,f,g,_i+1) \
1986	RND_STEP_1_8(h,a,b,c,d,e,f,g,_i+1) \
1987	RND_STEP_0_1(g,h,a,b,c,d,e,f,_i+2) \
1988	VPSRLQ (YTMP2, YTMP2, 17) /* YTMP2 = W[-2] MY_ROR 17 {xBxA} */ \
1989	VPADDD (YTMP0, YTMP0, Y0) \
1990	RND_STEP_0_2(g,h,a,b,c,d,e,f,_i+2) \
1991	RND_STEP_0_3(g,h,a,b,c,d,e,f,_i+2) \
1992	RND_STEP_0_4(g,h,a,b,c,d,e,f,_i+2) \
1993	VPXOR (YTMP2, YTMP3, YTMP2) \
1994	VPADDD (YTMP0, YTMP0, YTMP1) /* YTMP0 = W[-16] + W[-7] + s0 */ \
1995	RND_STEP_0_5(g,h,a,b,c,d,e,f,_i+2) \
1996	VPXOR (YTMP4, YTMP4, YTMP2) /* YTMP4 = s1 {xBxA} */ \
1997	RND_STEP_0_6(g,h,a,b,c,d,e,f,_i+2) \
1998	VPSHUFB (YTMP4, YTMP4, SHUF_Y_00BA) /* YTMP4 = s1 {00BA} */ \
1999	RND_STEP_0_7(g,h,a,b,c,d,e,f,_i+2) \
2000	VPADDD (YTMP0, YTMP0, YTMP4) /* YTMP0 = {..., ..., W[1], W[0]} */ \
2001	RND_STEP_0_8(g,h,a,b,c,d,e,f,_i+2) \
2002	RND_STEP_1_1(f,g,h,a,b,c,d,e,_i+3) \
2003	VPSHUFD (YTMP2, YTMP0, 0b01010000) /* YTMP2 = W[-2] {DDCC} */ \
2004	RND_STEP_1_2(f,g,h,a,b,c,d,e,_i+3) \
2005	VPSRLQ (YTMP4, YTMP2, 17) /* YTMP4 = W[-2] MY_ROR 17 {xDxC} */ \
2006	VPSRLQ (YTMP3, YTMP2, 19) /* YTMP3 = W[-2] MY_ROR 19 {xDxC} */ \
2007	RND_STEP_1_3(f,g,h,a,b,c,d,e,_i+3) \
2008	RND_STEP_1_4(f,g,h,a,b,c,d,e,_i+3) \
2009	VPSRLD (YTMP5, YTMP2, 10) /* YTMP5 = W[-2] >> 10 {DDCC} */ \
2010	VPXOR (YTMP4, YTMP3, YTMP4) \
2011	RND_STEP_1_5(f,g,h,a,b,c,d,e,_i+3) \
2012	RND_STEP_1_6(f,g,h,a,b,c,d,e,_i+3) \
2013	VPXOR (YTMP5, YTMP4, YTMP5) /* YTMP5 = s1 {xDxC} */ \
2014	RND_STEP_1_7(f,g,h,a,b,c,d,e,_i+3) \
2015	VPSHUFB (YTMP5, YTMP5, SHUF_Y_DC00) /* YTMP5 = s1 {DC00} */ \
2016	RND_STEP_1_8(f,g,h,a,b,c,d,e,_i+3) \
2017	VPADDD (Y0, YTMP5, YTMP0) /* Y0 = {W[3], W[2], W[1], W[0]} */
2018
2019	#if defined(HAVE_INTEL_RORX)
2020
2021	#define MsgSched_Y_RORX(Y0,Y1,Y2,Y3,a,b,c,d,e,f,g,h,_i) \
2022	RND_STEP_RORX_0_1(a,b,c,d,e,f,g,h,_i) \
2023	VPALIGNR (YTMP1, Y1, Y0, 4) /* YTMP1 = W[-15] */ \
2024	RND_STEP_RORX_0_2(a,b,c,d,e,f,g,h,_i) \
2025	VPALIGNR (YTMP0, Y3, Y2, 4) /* YTMP0 = W[-7] */ \
2026	RND_STEP_RORX_0_3(a,b,c,d,e,f,g,h,_i) \
2027	VPSRLD (YTMP2, YTMP1, 7) /* YTMP2 = W[-15] >> 7 */ \
2028	RND_STEP_RORX_0_4(a,b,c,d,e,f,g,h,_i) \
2029	VPSLLD (YTMP3, YTMP1, 25) /* YTEMP3 = W[-15] << (32-7) */ \
2030	RND_STEP_RORX_0_5(a,b,c,d,e,f,g,h,_i) \
2031	VPSRLD (YTMP4, YTMP1, 18) /* YTEMP4 = W[-15] >> 18 */ \
2032	RND_STEP_RORX_0_6(a,b,c,d,e,f,g,h,_i) \
2033	VPSLLD (YTMP5, YTMP1, 14) /* YTEMP5 = W[-15] << (32-18) */ \
2034	RND_STEP_RORX_0_7(a,b,c,d,e,f,g,h,_i) \
2035	VPOR (YTMP2, YTMP2, YTMP3) /* YTMP2 = W[-15] >>> 7 */ \
2036	RND_STEP_RORX_0_8(a,b,c,d,e,f,g,h,_i) \
2037	VPOR (YTMP4, YTMP4, YTMP5) /* YTMP4 = W[-15] >>> 18 */ \
2038	RND_STEP_RORX_1_1(h,a,b,c,d,e,f,g,_i+1) \
2039	VPSRLD (YTMP5, YTMP1, 3) /* YTMP4 = W[-15] >> 3 */ \
2040	RND_STEP_RORX_1_2(h,a,b,c,d,e,f,g,_i+1) \
2041	VPXOR (YTMP2, YTMP2, YTMP4) /* YTMP2 = W[-15] >>> 7 ^ W[-15] >>> 18 */ \
2042	RND_STEP_RORX_1_3(h,a,b,c,d,e,f,g,_i+1) \
2043	VPSHUFD (YTMP3, Y3, 0b11111010) /* YTMP2 = W[-2] {BBAA}*/ \
2044	RND_STEP_RORX_1_4(h,a,b,c,d,e,f,g,_i+1) \
2045	VPXOR (YTMP1, YTMP5, YTMP2) /* YTMP1 = s0 */ \
2046	RND_STEP_RORX_1_5(h,a,b,c,d,e,f,g,_i+1) \
2047	VPSRLD (YTMP4, YTMP3, 10) /* YTMP4 = W[-2] >> 10 {BBAA} */ \
2048	RND_STEP_RORX_1_6(h,a,b,c,d,e,f,g,_i+1) \
2049	VPSRLQ (YTMP2, YTMP3, 19) /* YTMP3 = W[-2] MY_ROR 19 {xBxA} */ \
2050	RND_STEP_RORX_1_7(h,a,b,c,d,e,f,g,_i+1) \
2051	VPSRLQ (YTMP3, YTMP3, 17) /* YTMP2 = W[-2] MY_ROR 17 {xBxA} */ \
2052	RND_STEP_RORX_1_8(h,a,b,c,d,e,f,g,_i+1) \
2053	VPADDD (YTMP0, YTMP0, Y0) \
2054	RND_STEP_RORX_0_1(g,h,a,b,c,d,e,f,_i+2) \
2055	VPXOR (YTMP2, YTMP2, YTMP3) \
2056	RND_STEP_RORX_0_2(g,h,a,b,c,d,e,f,_i+2) \
2057	VPXOR (YTMP4, YTMP4, YTMP2) /* YTMP4 = s1 {xBxA} */ \
2058	RND_STEP_RORX_0_3(g,h,a,b,c,d,e,f,_i+2) \
2059	VPADDD (YTMP0, YTMP0, YTMP1) /* YTMP0 = W[-16] + W[-7] + s0 */ \
2060	RND_STEP_RORX_0_4(g,h,a,b,c,d,e,f,_i+2) \
2061	VPSHUFB (YTMP4, YTMP4, SHUF_Y_00BA) /* YTMP4 = s1 {00BA} */ \
2062	RND_STEP_RORX_0_5(g,h,a,b,c,d,e,f,_i+2) \
2063	VPADDD (YTMP0, YTMP0, YTMP4) /* YTMP0 = {..., ..., W[1], W[0]} */ \
2064	RND_STEP_RORX_0_6(g,h,a,b,c,d,e,f,_i+2) \
2065	VPSHUFD (YTMP2, YTMP0, 0b01010000) /* YTMP2 = W[-2] {DDCC} */ \
2066	RND_STEP_RORX_0_7(g,h,a,b,c,d,e,f,_i+2) \
2067	RND_STEP_RORX_0_8(g,h,a,b,c,d,e,f,_i+2) \
2068	VPSRLQ (YTMP4, YTMP2, 17) /* YTMP4 = W[-2] MY_ROR 17 {xDxC} */ \
2069	RND_STEP_RORX_1_1(f,g,h,a,b,c,d,e,_i+3) \
2070	VPSRLQ (YTMP3, YTMP2, 19) /* YTMP3 = W[-2] MY_ROR 19 {xDxC} */ \
2071	RND_STEP_RORX_1_2(f,g,h,a,b,c,d,e,_i+3) \
2072	VPSRLD (YTMP5, YTMP2, 10) /* YTMP5 = W[-2] >> 10 {DDCC} */ \
2073	RND_STEP_RORX_1_3(f,g,h,a,b,c,d,e,_i+3) \
2074	VPXOR (YTMP4, YTMP4, YTMP3) \
2075	RND_STEP_RORX_1_4(f,g,h,a,b,c,d,e,_i+3) \
2076	VPXOR (YTMP5, YTMP5, YTMP4) /* YTMP5 = s1 {xDxC} */ \
2077	RND_STEP_RORX_1_5(f,g,h,a,b,c,d,e,_i+3) \
2078	RND_STEP_RORX_1_6(f,g,h,a,b,c,d,e,_i+3) \
2079	VPSHUFB (YTMP5, YTMP5, SHUF_Y_DC00) /* YTMP5 = s1 {DC00} */ \
2080	RND_STEP_RORX_1_7(f,g,h,a,b,c,d,e,_i+3) \
2081	RND_STEP_RORX_1_8(f,g,h,a,b,c,d,e,_i+3) \
2082	VPADDD (Y0, YTMP5, YTMP0) /* Y0 = {W[3], W[2], W[1], W[0]} */ \
2083
2084	#endif /* HAVE_INTEL_RORX */
2085
2086	#define _VINSERTI128(op1,op2,op3,op4) \
2087	"vinserti128 $" #op4 ", %" #op3 ", %" #op2 ", %" #op1 "\n\t"
2088	#define VINSERTI128(op1,op2,op3,op4) \
2089	_VINSERTI128(op1,op2,op3,op4)
2090
2091
2092	#define _LOAD_W_K_LOW(BYTE_FLIP_MASK, reg) \
2093	"# X0, X1, X2, X3 = W[0..15]\n\t" \
2094	"vmovdqu (%%" #reg "), %%xmm0\n\t" \
2095	"vmovdqu 16(%%" #reg "), %%xmm1\n\t" \
2096	VPSHUFB(X0, X0, BYTE_FLIP_MASK) \
2097	VPSHUFB(X1, X1, BYTE_FLIP_MASK) \
2098	"vmovdqu 32(%%" #reg "), %%xmm2\n\t" \
2099	"vmovdqu 48(%%" #reg "), %%xmm3\n\t" \
2100	VPSHUFB(X2, X2, BYTE_FLIP_MASK) \
2101	VPSHUFB(X3, X3, BYTE_FLIP_MASK)
2102
2103	#define LOAD_W_K_LOW(BYTE_FLIP_MASK, reg) \
2104	_LOAD_W_K_LOW(BYTE_FLIP_MASK, reg)
2105
2106
2107	#define _LOAD_W_K(BYTE_FLIP_Y_MASK, reg) \
2108	"# X0, X1, X2, X3 = W[0..15]\n\t" \
2109	"vmovdqu (%%" #reg "), %%xmm0\n\t" \
2110	"vmovdqu 16(%%" #reg "), %%xmm1\n\t" \
2111	"vmovdqu 64(%%" #reg "), %%xmm4\n\t" \
2112	"vmovdqu 80(%%" #reg "), %%xmm5\n\t" \
2113	VINSERTI128(Y0, Y0, XTMP0, 1) \
2114	VINSERTI128(Y1, Y1, XTMP1, 1) \
2115	VPSHUFB(Y0, Y0, BYTE_FLIP_Y_MASK) \
2116	VPSHUFB(Y1, Y1, BYTE_FLIP_Y_MASK) \
2117	"vmovdqu 32(%%" #reg "), %%xmm2\n\t" \
2118	"vmovdqu 48(%%" #reg "), %%xmm3\n\t" \
2119	"vmovdqu 96(%%" #reg "), %%xmm6\n\t" \
2120	"vmovdqu 112(%%" #reg "), %%xmm7\n\t" \
2121	VINSERTI128(Y2, Y2, XTMP2, 1) \
2122	VINSERTI128(Y3, Y3, XTMP3, 1) \
2123	VPSHUFB(Y2, Y2, BYTE_FLIP_Y_MASK) \
2124	VPSHUFB(Y3, Y3, BYTE_FLIP_Y_MASK)
2125
2126	#define LOAD_W_K(BYTE_FLIP_Y_MASK, reg) \
2127	_LOAD_W_K(BYTE_FLIP_Y_MASK, reg)
2128
2129
2130	#define _SET_W_Y_4(i) \
2131	"vpaddd (" #i "*8)+ 0+%[K], %%ymm0, %%ymm4\n\t" \
2132	"vpaddd (" #i "*8)+32+%[K], %%ymm1, %%ymm5\n\t" \
2133	"vmovdqu %%ymm4, (" #i "*8)+ 0(" WK ")\n\t" \
2134	"vmovdqu %%ymm5, (" #i "*8)+32(" WK ")\n\t" \
2135	"vpaddd (" #i "*8)+64+%[K], %%ymm2, %%ymm4\n\t" \
2136	"vpaddd (" #i "*8)+96+%[K], %%ymm3, %%ymm5\n\t" \
2137	"vmovdqu %%ymm4, (" #i "*8)+64(" WK ")\n\t" \
2138	"vmovdqu %%ymm5, (" #i "*8)+96(" WK ")\n\t"
2139
2140	#define SET_W_Y_4(i) \
2141	_SET_W_Y_4(i)
2142
2143
2144	static const ALIGN32 word64 mSHUF_Y_00BA[] =
2145	{ 0x0b0a090803020100, 0xFFFFFFFFFFFFFFFF,
2146	0x0b0a090803020100, 0xFFFFFFFFFFFFFFFF }; /* shuffle xBxA -> 00BA */
2147	static const ALIGN32 word64 mSHUF_Y_DC00[] =
2148	{ 0xFFFFFFFFFFFFFFFF, 0x0b0a090803020100,
2149	0xFFFFFFFFFFFFFFFF, 0x0b0a090803020100 }; /* shuffle xDxC -> DC00 */
2150	static const ALIGN32 word64 mBYTE_FLIP_Y_MASK[] =
2151	{ 0x0405060700010203, 0x0c0d0e0f08090a0b,
2152	0x0405060700010203, 0x0c0d0e0f08090a0b };
2153
2154	#define _INIT_MASKS_Y(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00) \
2155	"vmovdqa %[FLIP], %" #BYTE_FLIP_MASK "\n\t" \
2156	"vmovdqa %[SHUF00BA], %" #SHUF_00BA "\n\t" \
2157	"vmovdqa %[SHUFDC00], %" #SHUF_DC00 "\n\t"
2158
2159	#define INIT_MASKS_Y(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00) \
2160	_INIT_MASKS_Y(BYTE_FLIP_MASK, SHUF_00BA, SHUF_DC00)
2161
2162	static const ALIGN32 word32 K256[128] = {
2163	0x428A2F98L, 0x71374491L, 0xB5C0FBCFL, 0xE9B5DBA5L,
2164	0x428A2F98L, 0x71374491L, 0xB5C0FBCFL, 0xE9B5DBA5L,
2165	0x3956C25BL, 0x59F111F1L, 0x923F82A4L, 0xAB1C5ED5L,
2166	0x3956C25BL, 0x59F111F1L, 0x923F82A4L, 0xAB1C5ED5L,
2167	0xD807AA98L, 0x12835B01L, 0x243185BEL, 0x550C7DC3L,
2168	0xD807AA98L, 0x12835B01L, 0x243185BEL, 0x550C7DC3L,
2169	0x72BE5D74L, 0x80DEB1FEL, 0x9BDC06A7L, 0xC19BF174L,
2170	0x72BE5D74L, 0x80DEB1FEL, 0x9BDC06A7L, 0xC19BF174L,
2171	0xE49B69C1L, 0xEFBE4786L, 0x0FC19DC6L, 0x240CA1CCL,
2172	0xE49B69C1L, 0xEFBE4786L, 0x0FC19DC6L, 0x240CA1CCL,
2173	0x2DE92C6FL, 0x4A7484AAL, 0x5CB0A9DCL, 0x76F988DAL,
2174	0x2DE92C6FL, 0x4A7484AAL, 0x5CB0A9DCL, 0x76F988DAL,
2175	0x983E5152L, 0xA831C66DL, 0xB00327C8L, 0xBF597FC7L,
2176	0x983E5152L, 0xA831C66DL, 0xB00327C8L, 0xBF597FC7L,
2177	0xC6E00BF3L, 0xD5A79147L, 0x06CA6351L, 0x14292967L,
2178	0xC6E00BF3L, 0xD5A79147L, 0x06CA6351L, 0x14292967L,
2179	0x27B70A85L, 0x2E1B2138L, 0x4D2C6DFCL, 0x53380D13L,
2180	0x27B70A85L, 0x2E1B2138L, 0x4D2C6DFCL, 0x53380D13L,
2181	0x650A7354L, 0x766A0ABBL, 0x81C2C92EL, 0x92722C85L,
2182	0x650A7354L, 0x766A0ABBL, 0x81C2C92EL, 0x92722C85L,
2183	0xA2BFE8A1L, 0xA81A664BL, 0xC24B8B70L, 0xC76C51A3L,
2184	0xA2BFE8A1L, 0xA81A664BL, 0xC24B8B70L, 0xC76C51A3L,
2185	0xD192E819L, 0xD6990624L, 0xF40E3585L, 0x106AA070L,
2186	0xD192E819L, 0xD6990624L, 0xF40E3585L, 0x106AA070L,
2187	0x19A4C116L, 0x1E376C08L, 0x2748774CL, 0x34B0BCB5L,
2188	0x19A4C116L, 0x1E376C08L, 0x2748774CL, 0x34B0BCB5L,
2189	0x391C0CB3L, 0x4ED8AA4AL, 0x5B9CCA4FL, 0x682E6FF3L,
2190	0x391C0CB3L, 0x4ED8AA4AL, 0x5B9CCA4FL, 0x682E6FF3L,
2191	0x748F82EEL, 0x78A5636FL, 0x84C87814L, 0x8CC70208L,
2192	0x748F82EEL, 0x78A5636FL, 0x84C87814L, 0x8CC70208L,
2193	0x90BEFFFAL, 0xA4506CEBL, 0xBEF9A3F7L, 0xC67178F2L,
2194	0x90BEFFFAL, 0xA4506CEBL, 0xBEF9A3F7L, 0xC67178F2L
2195	};
2196
2197	SHA256_NOINLINE static int Transform_Sha256_AVX2(wc_Sha256* sha256)
2198	{
2199	__asm__ __volatile__ (
2200
2201	"subq $512, %%rsp\n\t"
2202	"leaq 32(%[sha256]), %%rax\n\t"
2203
2204	INIT_MASKS_Y(BYTE_FLIP_MASK, SHUF_Y_00BA, SHUF_Y_DC00)
2205	LOAD_DIGEST()
2206
2207	LOAD_W_K_LOW(BYTE_FLIP_MASK, rax)
2208
2209	"movl %%r9d, " L4 "\n\t"
2210	"movl %%r12d, " L1 "\n\t"
2211	"xorl %%r10d, " L4 "\n\t"
2212
2213	SET_W_Y_4(0)
2214	MsgSched_Y(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
2215	MsgSched_Y(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 8)
2216	MsgSched_Y(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 16)
2217	MsgSched_Y(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 24)
2218
2219	SET_W_Y_4(16)
2220	MsgSched_Y(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 32)
2221	MsgSched_Y(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 40)
2222	MsgSched_Y(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 48)
2223	MsgSched_Y(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 56)
2224
2225	SET_W_Y_4(32)
2226	MsgSched_Y(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 64)
2227	MsgSched_Y(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 72)
2228	MsgSched_Y(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 80)
2229	MsgSched_Y(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 88)
2230
2231	SET_W_Y_4(48)
2232	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 96)
2233	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 104)
2234	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 112)
2235	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 120)
2236
2237	STORE_ADD_DIGEST()
2238
2239	"addq $512, %%rsp\n\t"
2240
2241	:
2242	: [FLIP] "m" (mBYTE_FLIP_MASK[0]),
2243	[SHUF00BA] "m" (mSHUF_Y_00BA[0]),
2244	[SHUFDC00] "m" (mSHUF_Y_DC00[0]),
2245	[sha256] "r" (sha256),
2246	[K] "m" (K256)
2247	: WORK_REGS, STATE_REGS, YMM_REGS, "memory"
2248	);
2249
2250	return 0;
2251	}
2252
2253	SHA256_NOINLINE static int Transform_Sha256_AVX2_Len(wc_Sha256* sha256,
2254	word32 len)
2255	{
2256	if ((len & WC_SHA256_BLOCK_SIZE) != 0) {
2257	XMEMCPY(sha256->buffer, sha256->data, WC_SHA256_BLOCK_SIZE);
2258	Transform_Sha256_AVX2(sha256);
2259	sha256->data += WC_SHA256_BLOCK_SIZE;
2260	len -= WC_SHA256_BLOCK_SIZE;
2261	if (len == 0)
2262	return 0;
2263	}
2264
2265	__asm__ __volatile__ (
2266
2267	"subq $512, %%rsp\n\t"
2268	"movq 120(%[sha256]), %%rax\n\t"
2269
2270	INIT_MASKS_Y(BYTE_FLIP_Y_MASK, SHUF_Y_00BA, SHUF_Y_DC00)
2271	LOAD_DIGEST()
2272
2273	"# Start of loop processing two blocks\n"
2274	"1:\n\t"
2275
2276	LOAD_W_K(BYTE_FLIP_Y_MASK, rax)
2277
2278	"movl %%r9d, " L4 "\n\t"
2279	"movl %%r12d, " L1 "\n\t"
2280	"xorl %%r10d, " L4 "\n\t"
2281
2282	SET_W_Y_4(0)
2283	MsgSched_Y(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
2284	MsgSched_Y(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 8)
2285	MsgSched_Y(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 16)
2286	MsgSched_Y(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 24)
2287
2288	SET_W_Y_4(16)
2289	MsgSched_Y(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 32)
2290	MsgSched_Y(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 40)
2291	MsgSched_Y(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 48)
2292	MsgSched_Y(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 56)
2293
2294	SET_W_Y_4(32)
2295	MsgSched_Y(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 64)
2296	MsgSched_Y(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 72)
2297	MsgSched_Y(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 80)
2298	MsgSched_Y(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 88)
2299
2300	SET_W_Y_4(48)
2301	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 96)
2302	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 104)
2303	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 112)
2304	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 120)
2305
2306	ADD_DIGEST()
2307	STORE_DIGEST()
2308
2309	"movl %%r9d, " L4 "\n\t"
2310	"movl %%r12d, " L1 "\n\t"
2311	"xorl %%r10d, " L4 "\n\t"
2312
2313	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 4)
2314	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
2315	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 20)
2316	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 28)
2317	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 36)
2318	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 44)
2319	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 52)
2320	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 60)
2321	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 68)
2322	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 76)
2323	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 84)
2324	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 92)
2325	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 100)
2326	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 108)
2327	RND_ALL_4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 116)
2328	RND_ALL_4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 124)
2329
2330	ADD_DIGEST()
2331
2332	"movq 120(%[sha256]), %%rax\n\t"
2333	"addq $128, %%rax\n\t"
2334	"subl $128, %[len]\n\t"
2335
2336	STORE_DIGEST()
2337
2338	"movq %%rax, 120(%[sha256])\n\t"
2339	"jnz 1b\n\t"
2340
2341	"addq $512, %%rsp\n\t"
2342
2343	:
2344	: [FLIP] "m" (mBYTE_FLIP_Y_MASK[0]),
2345	[SHUF00BA] "m" (mSHUF_Y_00BA[0]),
2346	[SHUFDC00] "m" (mSHUF_Y_DC00[0]),
2347	[sha256] "r" (sha256),
2348	[len] "r" (len),
2349	[K] "m" (K256)
2350	: WORK_REGS, STATE_REGS, YMM_REGS, "memory"
2351	);
2352
2353	return 0;
2354	}
2355
2356	#if defined(HAVE_INTEL_RORX)
2357	SHA256_NOINLINE static int Transform_Sha256_AVX2_RORX(wc_Sha256* sha256)
2358	{
2359	__asm__ __volatile__ (
2360
2361	"subq $512, %%rsp\n\t"
2362	"leaq 32(%[sha256]), %%rax\n\t"
2363
2364	INIT_MASKS_Y(BYTE_FLIP_MASK, SHUF_Y_00BA, SHUF_Y_DC00)
2365	LOAD_W_K_LOW(BYTE_FLIP_MASK, rax)
2366
2367	LOAD_DIGEST()
2368
2369	"movl %%r9d, " L4 "\n\t"
2370	"rorx $6, %%r12d, " L1 "\n\t"
2371	"xorl %%r10d, " L4 "\n\t"
2372
2373	SET_W_Y_4(0)
2374	MsgSched_Y_RORX(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
2375	MsgSched_Y_RORX(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 8)
2376	MsgSched_Y_RORX(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 16)
2377	MsgSched_Y_RORX(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 24)
2378
2379	SET_W_Y_4(16)
2380	MsgSched_Y_RORX(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 32)
2381	MsgSched_Y_RORX(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 40)
2382	MsgSched_Y_RORX(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 48)
2383	MsgSched_Y_RORX(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 56)
2384
2385	SET_W_Y_4(32)
2386	MsgSched_Y_RORX(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 64)
2387	MsgSched_Y_RORX(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 72)
2388	MsgSched_Y_RORX(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 80)
2389	MsgSched_Y_RORX(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 88)
2390
2391	SET_W_Y_4(48)
2392	"xorl " L3 ", " L3 "\n\t"
2393	"xorl " L2 ", " L2 "\n\t"
2394	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 96)
2395	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 104)
2396	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 112)
2397	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 120)
2398	/* Prev RND: h += Maj(a,b,c) */
2399	"addl " L3 ", %%r8d\n\t"
2400
2401	STORE_ADD_DIGEST()
2402
2403	"addq $512, %%rsp\n\t"
2404
2405	:
2406	: [FLIP] "m" (mBYTE_FLIP_MASK[0]),
2407	[SHUF00BA] "m" (mSHUF_Y_00BA[0]),
2408	[SHUFDC00] "m" (mSHUF_Y_DC00[0]),
2409	[sha256] "r" (sha256),
2410	[K] "m" (K256)
2411	: WORK_REGS, STATE_REGS, YMM_REGS, "memory"
2412	);
2413
2414	return 0;
2415	}
2416
2417	SHA256_NOINLINE static int Transform_Sha256_AVX2_RORX_Len(wc_Sha256* sha256,
2418	word32 len)
2419	{
2420	if ((len & WC_SHA256_BLOCK_SIZE) != 0) {
2421	XMEMCPY(sha256->buffer, sha256->data, WC_SHA256_BLOCK_SIZE);
2422	Transform_Sha256_AVX2_RORX(sha256);
2423	sha256->data += WC_SHA256_BLOCK_SIZE;
2424	len -= WC_SHA256_BLOCK_SIZE;
2425	if (len == 0)
2426	return 0;
2427	}
2428
2429	__asm__ __volatile__ (
2430
2431	"subq $512, %%rsp\n\t"
2432	"movq 120(%[sha256]), %%rax\n\t"
2433
2434	INIT_MASKS_Y(BYTE_FLIP_Y_MASK, SHUF_Y_00BA, SHUF_Y_DC00)
2435	LOAD_DIGEST()
2436
2437	"# Start of loop processing two blocks\n"
2438	"1:\n\t"
2439
2440	LOAD_W_K(BYTE_FLIP_Y_MASK, rax)
2441
2442	"movl %%r9d, " L4 "\n\t"
2443	"rorx $6, %%r12d, " L1 "\n\t"
2444	"xorl %%r10d, " L4 "\n\t"
2445
2446	SET_W_Y_4(0)
2447	MsgSched_Y_RORX(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 0)
2448	MsgSched_Y_RORX(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 8)
2449	MsgSched_Y_RORX(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 16)
2450	MsgSched_Y_RORX(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 24)
2451
2452	SET_W_Y_4(16)
2453	MsgSched_Y_RORX(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 32)
2454	MsgSched_Y_RORX(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 40)
2455	MsgSched_Y_RORX(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 48)
2456	MsgSched_Y_RORX(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 56)
2457
2458	SET_W_Y_4(32)
2459	MsgSched_Y_RORX(Y0, Y1, Y2, Y3, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 64)
2460	MsgSched_Y_RORX(Y1, Y2, Y3, Y0, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 72)
2461	MsgSched_Y_RORX(Y2, Y3, Y0, Y1, S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 80)
2462	MsgSched_Y_RORX(Y3, Y0, Y1, Y2, S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 88)
2463
2464	SET_W_Y_4(48)
2465	"xorl " L3 ", " L3 "\n\t"
2466	"xorl " L2 ", " L2 "\n\t"
2467	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 96)
2468	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 104)
2469	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 112)
2470	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 120)
2471	/* Prev RND: h += Maj(a,b,c) */
2472	"addl " L3 ", %%r8d\n\t"
2473	"xorl " L2 ", " L2 "\n\t"
2474
2475	ADD_DIGEST()
2476	STORE_DIGEST()
2477
2478	"movl %%r9d, " L4 "\n\t"
2479	"xorl " L3 ", " L3 "\n\t"
2480	"xorl %%r10d, " L4 "\n\t"
2481
2482	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 4)
2483	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 12)
2484	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 20)
2485	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 28)
2486	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 36)
2487	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 44)
2488	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 52)
2489	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 60)
2490	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 68)
2491	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 76)
2492	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 84)
2493	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 92)
2494	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 100)
2495	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 108)
2496	RND_RORX_X4(S_0, S_1, S_2, S_3, S_4, S_5, S_6, S_7, 116)
2497	RND_RORX_X4(S_4, S_5, S_6, S_7, S_0, S_1, S_2, S_3, 124)
2498	/* Prev RND: h += Maj(a,b,c) */
2499	"addl " L3 ", %%r8d\n\t"
2500	"movq 120(%[sha256]), %%rax\n\t"
2501
2502	ADD_DIGEST()
2503
2504	"addq $128, %%rax\n\t"
2505	"subl $128, %[len]\n\t"
2506
2507	STORE_DIGEST()
2508
2509	"movq %%rax, 120(%[sha256])\n\t"
2510	"jnz 1b\n\t"
2511
2512	"addq $512, %%rsp\n\t"
2513
2514	:
2515	: [FLIP] "m" (mBYTE_FLIP_Y_MASK[0]),
2516	[SHUF00BA] "m" (mSHUF_Y_00BA[0]),
2517	[SHUFDC00] "m" (mSHUF_Y_DC00[0]),
2518	[sha256] "r" (sha256),
2519	[len] "r" (len),
2520	[K] "m" (K256)
2521	: WORK_REGS, STATE_REGS, YMM_REGS, "memory"
2522	);
2523
2524	return 0;
2525	}
2526	#endif /* HAVE_INTEL_RORX */
2527	#endif /* HAVE_INTEL_AVX2 */
2528
2529
2530	#ifdef WOLFSSL_SHA224
2531
2532	#ifdef STM32_HASH_SHA2
2533
2534	/* Supports CubeMX HAL or Standard Peripheral Library */
2535
2536	int wc_InitSha224_ex(wc_Sha224* sha224, void* heap, int devId)
2537	{
2538	if (sha224 == NULL)
2539	return BAD_FUNC_ARG;
2540
2541	(void)devId;
2542	(void)heap;
2543
2544	wc_Stm32_Hash_Init(&sha224->stmCtx);
2545	return 0;
2546	}
2547
2548	int wc_Sha224Update(wc_Sha224* sha224, const byte* data, word32 len)
2549	{
2550	int ret = 0;
2551
2552	if (sha224 == NULL \|\| (data == NULL && len > 0)) {
2553	return BAD_FUNC_ARG;
2554	}
2555
2556	ret = wolfSSL_CryptHwMutexLock();
2557	if (ret == 0) {
2558	ret = wc_Stm32_Hash_Update(&sha224->stmCtx,
2559	HASH_AlgoSelection_SHA224, data, len);
2560	wolfSSL_CryptHwMutexUnLock();
2561	}
2562	return ret;
2563	}
2564
2565	int wc_Sha224Final(wc_Sha224* sha224, byte* hash)
2566	{
2567	int ret = 0;
2568
2569	if (sha224 == NULL \|\| hash == NULL) {
2570	return BAD_FUNC_ARG;
2571	}
2572
2573	ret = wolfSSL_CryptHwMutexLock();
2574	if (ret == 0) {
2575	ret = wc_Stm32_Hash_Final(&sha224->stmCtx,
2576	HASH_AlgoSelection_SHA224, hash, WC_SHA224_DIGEST_SIZE);
2577	wolfSSL_CryptHwMutexUnLock();
2578	}
2579
2580	(void)wc_InitSha224(sha224); /* reset state */
2581
2582	return ret;
2583	}
2584
2585	#elif defined(WOLFSSL_IMX6_CAAM) && !defined(NO_IMX6_CAAM_HASH)
2586	/* functions defined in wolfcrypt/src/port/caam/caam_sha256.c */
2587
2588	#elif defined(WOLFSSL_AFALG_HASH)
2589	#error SHA224 currently not supported with AF_ALG enabled
2590
2591	#elif defined(WOLFSSL_DEVCRYPTO_HASH)
2592	/* implemented in wolfcrypt/src/port/devcrypto/devcrypt_hash.c */
2593
2594	#else
2595
2596	#define NEED_SOFT_SHA224
2597
2598
2599	static int InitSha224(wc_Sha224* sha224)
2600	{
2601	int ret = 0;
2602
2603	if (sha224 == NULL) {
2604	return BAD_FUNC_ARG;
2605	}
2606
2607	sha224->digest[0] = 0xc1059ed8;
2608	sha224->digest[1] = 0x367cd507;
2609	sha224->digest[2] = 0x3070dd17;
2610	sha224->digest[3] = 0xf70e5939;
2611	sha224->digest[4] = 0xffc00b31;
2612	sha224->digest[5] = 0x68581511;
2613	sha224->digest[6] = 0x64f98fa7;
2614	sha224->digest[7] = 0xbefa4fa4;
2615
2616	sha224->buffLen = 0;
2617	sha224->loLen = 0;
2618	sha224->hiLen = 0;
2619
2620	#if defined(HAVE_INTEL_AVX1)\|\| defined(HAVE_INTEL_AVX2)
2621	/* choose best Transform function under this runtime environment */
2622	Sha256_SetTransform();
2623	#endif
2624
2625	return ret;
2626	}
2627
2628	#endif
2629
2630	#ifdef NEED_SOFT_SHA224
2631	int wc_InitSha224_ex(wc_Sha224* sha224, void* heap, int devId)
2632	{
2633	int ret = 0;
2634
2635	if (sha224 == NULL)
2636	return BAD_FUNC_ARG;
2637
2638	sha224->heap = heap;
2639
2640	ret = InitSha224(sha224);
2641	if (ret != 0)
2642	return ret;
2643
2644	#ifdef WOLFSSL_SMALL_STACK_CACHE
2645	sha224->W = NULL;
2646	#endif
2647
2648	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA224)
2649	ret = wolfAsync_DevCtxInit(&sha224->asyncDev,
2650	WOLFSSL_ASYNC_MARKER_SHA224, sha224->heap, devId);
2651	#else
2652	(void)devId;
2653	#endif /* WOLFSSL_ASYNC_CRYPT */
2654
2655	return ret;
2656	}
2657
2658	int wc_Sha224Update(wc_Sha224* sha224, const byte* data, word32 len)
2659	{
2660	int ret;
2661
2662	if (sha224 == NULL \|\| (data == NULL && len > 0)) {
2663	return BAD_FUNC_ARG;
2664	}
2665
2666	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA224)
2667	if (sha224->asyncDev.marker == WOLFSSL_ASYNC_MARKER_SHA224) {
2668	#if defined(HAVE_INTEL_QA)
2669	return IntelQaSymSha224(&sha224->asyncDev, NULL, data, len);
2670	#endif
2671	}
2672	#endif /* WOLFSSL_ASYNC_CRYPT */
2673
2674	ret = Sha256Update((wc_Sha256*)sha224, data, len);
2675
2676	return ret;
2677	}
2678
2679	int wc_Sha224Final(wc_Sha224* sha224, byte* hash)
2680	{
2681	int ret;
2682
2683	if (sha224 == NULL \|\| hash == NULL) {
2684	return BAD_FUNC_ARG;
2685	}
2686
2687	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA224)
2688	if (sha224->asyncDev.marker == WOLFSSL_ASYNC_MARKER_SHA224) {
2689	#if defined(HAVE_INTEL_QA)
2690	return IntelQaSymSha224(&sha224->asyncDev, hash, NULL,
2691	WC_SHA224_DIGEST_SIZE);
2692	#endif
2693	}
2694	#endif /* WOLFSSL_ASYNC_CRYPT */
2695
2696	ret = Sha256Final((wc_Sha256*)sha224);
2697	if (ret != 0)
2698	return ret;
2699
2700	#if defined(LITTLE_ENDIAN_ORDER)
2701	ByteReverseWords(sha224->digest, sha224->digest, WC_SHA224_DIGEST_SIZE);
2702	#endif
2703	XMEMCPY(hash, sha224->digest, WC_SHA224_DIGEST_SIZE);
2704
2705	return InitSha224(sha224); /* reset state */
2706	}
2707	#endif /* end of SHA224 software implementation */
2708
2709	int wc_InitSha224(wc_Sha224* sha224)
2710	{
2711	return wc_InitSha224_ex(sha224, NULL, INVALID_DEVID);
2712	}
2713
2714	void wc_Sha224Free(wc_Sha224* sha224)
2715	{
2716	if (sha224 == NULL)
2717	return;
2718
2719	#ifdef WOLFSSL_SMALL_STACK_CACHE
2720	if (sha224->W != NULL) {
2721	XFREE(sha224->W, NULL, DYNAMIC_TYPE_DIGEST);
2722	sha224->W = NULL;
2723	}
2724	#endif
2725
2726	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA224)
2727	wolfAsync_DevCtxFree(&sha224->asyncDev, WOLFSSL_ASYNC_MARKER_SHA224);
2728	#endif /* WOLFSSL_ASYNC_CRYPT */
2729
2730	#ifdef WOLFSSL_PIC32MZ_HASH
2731	wc_Sha256Pic32Free(sha224);
2732	#endif
2733	}
2734	#endif /* WOLFSSL_SHA224 */
2735
2736
2737	int wc_InitSha256(wc_Sha256* sha256)
2738	{
2739	return wc_InitSha256_ex(sha256, NULL, INVALID_DEVID);
2740	}
2741
2742	void wc_Sha256Free(wc_Sha256* sha256)
2743	{
2744	if (sha256 == NULL)
2745	return;
2746
2747	#ifdef WOLFSSL_SMALL_STACK_CACHE
2748	if (sha256->W != NULL) {
2749	XFREE(sha256->W, NULL, DYNAMIC_TYPE_DIGEST);
2750	sha256->W = NULL;
2751	}
2752	#endif
2753
2754	#if defined(WOLFSSL_ASYNC_CRYPT) && defined(WC_ASYNC_ENABLE_SHA256)
2755	wolfAsync_DevCtxFree(&sha256->asyncDev, WOLFSSL_ASYNC_MARKER_SHA256);
2756	#endif /* WOLFSSL_ASYNC_CRYPT */
2757	#ifdef WOLFSSL_PIC32MZ_HASH
2758	wc_Sha256Pic32Free(sha256);
2759	#endif
2760	#if defined(WOLFSSL_AFALG_HASH)
2761	if (sha256->alFd > 0) {
2762	close(sha256->alFd);
2763	sha256->alFd = -1; /* avoid possible double close on socket */
2764	}
2765	if (sha256->rdFd > 0) {
2766	close(sha256->rdFd);
2767	sha256->rdFd = -1; /* avoid possible double close on socket */
2768	}
2769	#endif /* WOLFSSL_AFALG_HASH */
2770	#ifdef WOLFSSL_DEVCRYPTO_HASH
2771	wc_DevCryptoFree(&sha256->ctx);
2772	#endif /* WOLFSSL_DEVCRYPTO */
2773	#if defined(WOLFSSL_AFALG_HASH_KEEP) \|\| \
2774	(defined(WOLFSSL_DEVCRYPTO_HASH) && defined(WOLFSSL_DEVCRYPTO_HASH_KEEP))
2775	if (sha256->msg != NULL) {
2776	XFREE(sha256->msg, sha256->heap, DYNAMIC_TYPE_TMP_BUFFER);
2777	sha256->msg = NULL;
2778	}
2779	#endif
2780	}
2781
2782	#endif /* !WOLFSSL_TI_HASH */
2783	#endif /* HAVE_FIPS */
2784
2785
2786	#ifndef WOLFSSL_TI_HASH
2787	#ifdef WOLFSSL_SHA224
2788	int wc_Sha224GetHash(wc_Sha224* sha224, byte* hash)
2789	{
2790	int ret;
2791	wc_Sha224 tmpSha224;
2792
2793	if (sha224 == NULL \|\| hash == NULL)
2794	return BAD_FUNC_ARG;
2795
2796	ret = wc_Sha224Copy(sha224, &tmpSha224);
2797	if (ret == 0) {
2798	ret = wc_Sha224Final(&tmpSha224, hash);
2799	wc_Sha224Free(&tmpSha224);
2800	}
2801	return ret;
2802	}
2803	int wc_Sha224Copy(wc_Sha224* src, wc_Sha224* dst)
2804	{
2805	int ret = 0;
2806
2807	if (src == NULL \|\| dst == NULL)
2808	return BAD_FUNC_ARG;
2809
2810	XMEMCPY(dst, src, sizeof(wc_Sha224));
2811	#ifdef WOLFSSL_SMALL_STACK_CACHE
2812	dst->W = NULL;
2813	#endif
2814
2815	#ifdef WOLFSSL_ASYNC_CRYPT
2816	ret = wolfAsync_DevCopy(&src->asyncDev, &dst->asyncDev);
2817	#endif
2818
2819	return ret;
2820	}
2821	#endif /* WOLFSSL_SHA224 */
2822
2823	#ifdef WOLFSSL_AFALG_HASH
2824	/* implemented in wolfcrypt/src/port/af_alg/afalg_hash.c */
2825
2826	#elif defined(WOLFSSL_DEVCRYPTO_HASH)
2827	/* implemented in wolfcrypt/src/port/devcrypto/devcrypt_hash.c */
2828
2829	#else
2830
2831	int wc_Sha256GetHash(wc_Sha256* sha256, byte* hash)
2832	{
2833	int ret;
2834	wc_Sha256 tmpSha256;
2835
2836	if (sha256 == NULL \|\| hash == NULL)
2837	return BAD_FUNC_ARG;
2838
2839	ret = wc_Sha256Copy(sha256, &tmpSha256);
2840	if (ret == 0) {
2841	ret = wc_Sha256Final(&tmpSha256, hash);
2842	wc_Sha256Free(&tmpSha256);
2843	}
2844	return ret;
2845	}
2846	int wc_Sha256Copy(wc_Sha256* src, wc_Sha256* dst)
2847	{
2848	int ret = 0;
2849
2850	if (src == NULL \|\| dst == NULL)
2851	return BAD_FUNC_ARG;
2852
2853	XMEMCPY(dst, src, sizeof(wc_Sha256));
2854	#ifdef WOLFSSL_SMALL_STACK_CACHE
2855	dst->W = NULL;
2856	#endif
2857
2858	#ifdef WOLFSSL_ASYNC_CRYPT
2859	ret = wolfAsync_DevCopy(&src->asyncDev, &dst->asyncDev);
2860	#endif
2861	#ifdef WOLFSSL_PIC32MZ_HASH
2862	ret = wc_Pic32HashCopy(&src->cache, &dst->cache);
2863	#endif
2864
2865	return ret;
2866	}
2867	#endif
2868	#endif /* !WOLFSSL_TI_HASH */
2869
2870	#endif /* NO_SHA256 */

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: azure_iot_hub/trunk/wolfssl-3.15.7/wolfcrypt/src/sha256.c@ 389

Download in other formats: