AI: Difference between revisions


Interface	Model	GPTQ	Xformers?	HW	Load	Speed
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-triton	yes	240gb SSD, 16gb,desktop off	10.53	7.97 tokens/sec
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-triton	No xformers	240gb SSD, 16gb,desktop off	10.22s	7.55 tokens/sec
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-cuda	No xformers	240gb SSD, 16gb,desktop off	16.68s	4.03 tokens/sec
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-cuda	yes	240gb SSD, 16gb,desktop off	9.34s	4.01 tokens/sec
text-gen	llama-30b-sft-oa-alpaca-epoch-2-4bit-ggml	no	no	2TB SSD, 64gb	?	0.67 tokens/sec
text-gen	llama-30b-sft-oa-alpaca-epoch-2-4bit-ggml	no	no	2TB SSD, 64gb, --threads 8	maybe 30s?	0.51 tokens/sec
text-gen	llama-30b-sft-oa-alpaca-epoch-2-4bit-ggml	no	no	2TB SSD, 64gb, --threads 7		0.68 tokens/sec
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g-ggml	no	no	2TB SSD, 64gb		1.17 tokens/s

@@ Line 68: / Line 68: @@
 |-
 |text-gen
+|anon8231489123-vicuna-13b-GPTQ-4bit-128g
-|anonVic13B
 |GPTQ-for-LLaMa-'''triton'''
 |yes
@@ Line 76: / Line 76: @@
 |-
 |text-gen
+|anon8231489123-vicuna-13b-GPTQ-4bit-128g
-|anonVic13B
 |GPTQ-for-LLaMa-'''triton'''
 |No xformers
@@ Line 84: / Line 84: @@
 |-
 |text-gen
+|anon8231489123-vicuna-13b-GPTQ-4bit-128g
-|anonVic13B
 |GPTQ-for-LLaMa-'''cuda'''
 |No xformers
@@ Line 92: / Line 92: @@
 |-
 |text-gen
+|anon8231489123-vicuna-13b-GPTQ-4bit-128g
-|anonVic13B
 |GPTQ-for-LLaMa-'''cuda'''
 |yes

Revision as of 17:00, 14 April 2023