o
    ¢Äi<  ã                   @   sä   d dl Z d dlZd dlZd dlZd dlmZ d dlZd dlZd dlmZm	Z	m
Z
mZmZ d dlmZmZmZmZ d dlmZ d dlmZ d dlmZ d dlmZ e d	¡Zdd
d„Zdd„ Zedkrpeƒ Zeej ƒ eeƒ dS dS )é    N)Údatetime)Ú	PrecisionÚcreate_onnxruntime_sessionÚget_ort_environment_variablesÚprepare_environmentÚsetup_logger)ÚDEFAULT_TOLERANCEÚMODEL_CLASSESÚPRETRAINED_GPT2_MODELSÚ
Gpt2Helper)Úversion)ÚQuantizeHelper)Ú
AutoConfig)Ú__version__Ú c                 C   s6  t  ¡ }|jdddtdd t¡ d |jddtd	tt ¡ ƒd
d t ¡ ¡ d |jddtt	j
 dd¡dd |jddtt	j
 dd¡dd |jdddtdd |jdddddd |jdddddd |jdd  |jd!td"dg d#¢d$d% |jd&ddd'd |jdd( |jd)d*ttjttƒd+d, |jd-ddd.d |jdd/ |jd0d1d2td3gd4d5 |jd6d2td3gd7d5 |jd8d9d2tg d:¢d;d5 |jd<d=dd d>d? |jd@dtdAdBd |jdCdddD |jddE |jdFdddD |jddG |jdHdddD |jddI |jdJdddD |jddK | | ¡}|S )LNz-mz--model_name_or_pathTz;Model path, or pretrained model name selected in the list: z, )ÚrequiredÚtypeÚhelpz--model_classFZGPT2LMHeadModelz!Model type selected in the list: )r   r   ÚdefaultÚchoicesr   z--cache_dirÚ.Zcache_modelsz%Directory to cache pre-trained models)r   r   r   r   z
--onnx_dirZonnx_modelszDirectory to store onnx modelsz--test_timeséd   z8Number of repeat times to get average inference latency.)r   r   r   r   z-vz--validate_onnxÚ
store_truezValidate ONNX model)r   Úactionr   z-oz--optimize_onnxz'Use optimizer.py to optimize onnx model)Úoptimize_onnxz--stager   )r   é   é   a6  Stage in generation: 1 (initial decoder), 2 (decoder), 0 (both). 1 - decode the first token when past_sequence_length is zero; 2 - decode the remaining tokens when past_sequence_length is not zero; 0 - one onnx model for both stages 1 and 2. Note that we will optimize 1 and 2 differently for best performance.)r   r   r   r   r   z	--use_gpuzuse GPU for inference)Úuse_gpuz-pz--precisionzfPrecision of model to run. fp32 for full precision, fp16 for half precision, and int8 for quantization)r   r   r   r   z--torchscriptzuse Torchscript)Útorchscriptz-bz--batch_sizesú+r   z
batch size)Únargsr   r   r   z--sequence_lengthsz!sequence lengths (excluding past)z-sz--past_sequence_lengths)é   é   é    é@   é€   é   zpast sequence lengthsz-rz--result_csvz$CSV file for saving summary results.)r   r   r   z--thread_numéÿÿÿÿzThreads to usez--include_copy_output_latency)r   r   )Úinclude_copy_output_latencyz	--verbose)Úverbosez--output_torch_latency)Úoutput_torch_latencyz--disable_io_binding)Údisable_io_binding)ÚargparseÚArgumentParserÚadd_argumentÚstrÚjoinr
   Úlistr	   ÚkeysÚosÚpathÚintÚset_defaultsr   ÚFLOAT32Ú
parse_args)ÚargvÚparserÚargs© r<   úm/home/kim/smarthome/.venv/lib/python3.10/site-packages/onnxruntime/transformers/models/gpt2/benchmark_gpt2.pyÚparse_arguments!   sÔ   û
ú	ûûûûûúú	ûú	û
r>   c           !      C   s¸  t  t¡t  d¡k rtdƒ‚t d| › ¡ | jtjkr&| j	r"| j
s&J dƒ‚| jtjkr3| j
r3J dƒ‚| jdkrB| jdgksBJ dƒ‚t | jdkrOtjd	d
n| j¡ ttj ¡ ƒ | j}| j}t||| j
ƒ t| j d }t}tj| j| j|d}|j| j||d}t  | j
rŠdnd¡}| !|¡ |j"dk}|j#|| j| jd	|d}	|	d }
t| j d }|j$|||
| j%|||d | j	sÅ| jtj&kr|	| jtjkrÑt'| jƒnd }
|j	|	d |
| jtjk|j(j)|j(j*|d	| jd | jtjkrt d¡ t+ ,|
|	d |¡ t+ -|¡}t d¡ |	d }
| jr|j|||||d}t.|
| j
d| j| j%d}|d u r0d S | /t0| j1ƒt0| jƒt0| j2ƒ|| j¡}| 3||| jtjk¡}| j4p[d 5t6 7¡  8d¡¡}t9|ddde}g d ¢}t:j;||d!}| <¡  | j1D ]I}| j2D ]A}| jD ]9}|dkr•|dkr•|dks—J ‚t =d"|||¡ |j>||||j)|j*|j"|j?|| jtjk||d#}| /||||| j¡}zá| j@sÊ| jAr| B||| jC¡\}}tD|ƒD ],\}}tE|tFƒr÷t =d$|› d%tG|ƒ› d&|d jH› ¡ qØt =d$|› d'|jH› ¡ qØnd }d }| jIr| J||| jC¡\}}n|jK||||| jCd| jLd(\}}| j@rb|}| jIsDg }|D ]}| M| N¡  O¡ ¡ q7|jP||| jtQ| j tQ| j d)rbt d*tQ| j › d+¡ t d,||||| jIrod-nd|rud.nd¡ | j| j| jtRƒ | j
| j| j	| j|||| jI|r”|d/›nd0|d/›d œ} | S| ¡ W qƒ tTy½   tjUd1d	d2 Y    W d   ƒ d S w q}qwW d   ƒ n	1 sÍw   Y  t d3|› ¡ |S )4Nz3.1.0z/This tool requires transformers 3.1.0 or later.z
Arguments:z'fp16 requires --optimize_onnx --use_gpuzquantization only supports CPUr   r   z<past_sequence_lengths shall be 0 for stage==1 (init decoder)T)Zlogical)r   Ú	cache_dir)Úconfigr?   zcuda:0Úcpué   )Zhas_pastZ
new_folderÚrawr   )Úhas_position_idsÚhas_attention_maskZfp32)Zauto_mixed_precisionÚstagezquantizing model...Zint8zfinished quantizing modelF)Zenable_all_optimizationZnum_threadsr)   zbenchmark_result_{}.csvz%Y%m%d-%H%M%SÚar   )ÚmodeÚnewline)Z
model_nameÚmodel_classrF   Zenvironment_variablesZgpuÚ	precisionZ	optimizerr   Ú
batch_sizeÚsequence_lengthÚpast_sequence_lengthr+   Útorch_latencyZonnxruntime_latency)Ú
fieldnameszMRunning test for batch_size=%d sequence_length=%d past_sequence_length=%d ...)Zfloat16rD   rE   ztorch output z is tuple of size z, shape z shape )Zreturn_numpyr(   )rJ   ZrtolZatolz:Pytorch and ONNX Runtime outputs are all close (tolerance=z).zZbatch_size=%d, sequence_length=%d, past_sequence_length=%d, onnxruntime_latency=%.2f %s %sz(disable_io_binding)z, torch_latency={torch_latency}z.2fÚNoneÚ	Exception)Úexc_infozResults are saved to file )Vr   ÚparseÚtransformers_versionÚRuntimeErrorÚloggerÚinforK   r   ZFLOAT16r   r   ZINT8rF   Zpast_sequence_lengthsÚtorchZset_num_threadsZ
thread_numÚpsutilÚ	cpu_countÚprintZ
__config__Zparallel_infor?   Zonnx_dirr   r	   rJ   r   r   Zfrom_pretrainedZmodel_name_or_pathr   ÚdeviceÚtoZn_layerZget_onnx_pathsZexport_onnxr)   r7   r/   r@   Znum_attention_headsZhidden_sizer   Zquantize_onnx_modelZquantize_torch_modelr   Zget_output_shapesÚmaxZbatch_sizesZsequence_lengthsZget_output_buffersZ
result_csvÚformatr   ÚnowÚstrftimeÚopenÚcsvÚ
DictWriterÚwriteheaderÚdebugZget_dummy_inputsZ
vocab_sizeZvalidate_onnxr*   Zpytorch_inferenceZ
test_timesÚ	enumerateÚ
isinstanceÚtupleÚlenÚshaper+   Zonnxruntime_inferenceZ$onnxruntime_inference_with_binded_ior(   ÚappendrA   ÚnumpyZcompare_outputsr   r   ÚwriterowrR   Úerror)!r;   r?   Ú
output_dirrJ   Z
gpt2helperr@   Úmodelr]   Zuse_external_data_formatZonnx_model_pathsZonnx_model_pathZuse_paddingÚsessionZmax_output_shapesZoutput_buffersZcsv_filenameZcsv_fileZcolumn_namesZ
csv_writerrL   rM   rN   Zdummy_inputsZoutput_shapesZoutputsrO   ÚiÚvalueZort_outputsZort_latencyZcopy_outputsÚoutputÚrowr<   r<   r=   Úmain¨   sŽ  ÿ
"

ûù

ø


ûû
û"ü
õûÿú
ÿ
ù
ûÿùò ü •ÿÿì rx   Ú__main__)N)!r,   rd   Úloggingr3   r   rZ   rY   Zbenchmark_helperr   r   r   r   r   Zgpt2_helperr   r	   r
   r   Ú	packagingr   Zquantize_helperr   Ztransformersr   r   rU   Ú	getLoggerrW   r>   rx   Ú__name__r;   r)   r<   r<   r<   r=   Ú<module>   s.   

  s
ý