AI: Difference between revisions


Interface	Model	GPTQ	Xformers?	HW	Load	Speed
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-triton	yes	240gb SSD, 16gb,desktop off	10.53	7.97 tokens/s
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-triton	No xformers	240gb SSD, 16gb,desktop off	10.22s	7.55 tokens/s
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-cuda	No xformers	240gb SSD, 16gb,desktop off	16.68s	4.03 tokens/s
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-cuda	yes	240gb SSD, 16gb,desktop off	9.34s	4.01 tokens/s
text-gen	llama-30b-sft-oa-alpaca-epoch-2-4bit-ggml	no	no	2TB SSD, 64gb	?	0.67 tokens/s
text-gen	llama-30b-sft-oa-alpaca-epoch-2-4bit-ggml	no	no	2TB SSD, 64gb, --threads 8	maybe 30s?	0.51 tokens/s
text-gen	llama-30b-sft-oa-alpaca-epoch-2-4bit-ggml	no	no	2TB SSD, 64gb, --threads 7		0.68 tokens/s
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g-ggml	no	no	2TB SSD, 64gb		1.17 tokens/s
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-triton	yes	2TB SSD, 64gb, --pre_layer 25	45.69	0.25 tokens/s
text-gen	anon8231489123-vicuna-13b-GPTQ-4bit-128g	GPTQ-for-LLaMa-triton	yes	2TB SSD, 64gb	36.47	9.63 tokens/s

@@ Line 57: / Line 57: @@
 == Benchmarks ==
-{| class="wikitable"
+{| class="wikitable sortable"
 |+
 !Interface
@@ Line 73: / Line 73: @@
 |240gb SSD, 16gb,desktop off
 |10.53
-|7.97 tokens/sec
+|7.97 tokens/s
 |-
 |text-gen
@@ Line 81: / Line 81: @@
 |240gb SSD, 16gb,desktop off
 |10.22s
-|7.55 tokens/sec
+|7.55 tokens/s
 |-
 |text-gen
@@ Line 89: / Line 89: @@
 |240gb SSD, 16gb,desktop off
 |16.68s
-|4.03 tokens/sec
+|4.03 tokens/s
 |-
 |text-gen
@@ Line 97: / Line 97: @@
 |240gb SSD, 16gb,desktop off
 |9.34s
-|4.01 tokens/sec
+|4.01 tokens/s
 |-
 |text-gen
@@ Line 105: / Line 105: @@
 |2TB SSD, 64gb
 |?
-|0.67 tokens/sec
+|0.67 tokens/s
 |-
 |text-gen
@@ Line 113: / Line 113: @@
 |2TB SSD, 64gb, '''--threads 8'''
 |maybe 30s?
-|0.51 tokens/sec
+|0.51 tokens/s
 |-
 |text-gen
@@ Line 121: / Line 121: @@
 |2TB SSD, 64gb, '''--threads 7'''
 |
-|0.68 tokens/sec
+|0.68 tokens/s
 |-
 |text-gen
@@ Line 138: / Line 138: @@
 |45.69
 |0.25 tokens/s
+|-
+|text-gen
+|anon8231489123-vicuna-13b-GPTQ-4bit-128g
+|GPTQ-for-LLaMa-'''triton'''
+|yes
+|2TB SSD, 64gb
+|36.47
+|9.63 tokens/s
 |}

Revision as of 17:14, 14 April 2023