Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
How to use l0rdkr0n0s/multilingual-e5-large-instructalbania-law with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("l0rdkr0n0s/multilingual-e5-large-instructalbania-law")
sentences = [
"pershendetje\n\nne shator te vitit 2023 ,me eshte dhene masa e sigurimit e arrestit me burg ,per vepren penale te 88 ne bashkepunim dhe 150 te kodit Penal.Ne mars te 2024 me eshte revokuar vendimi i mases per burg,duke me lene arrest shtepie pasi ndryshoj vepra penale ne nga neni 88 ne nenin 89/1 ne bashkepunim deri ne prill te 2024 ,date ku jam gjykuar perfundimisht nga gjykata.Nga masa e sigurimit e deri ne perfundim jam gjykuar ne bashkepunim.Ceshtja per nenin 89 u pushua per shkak te amistise ,nderkohe qe nenin 150 u pushua per shkak se fakti nuk perben veper penale.Pyetja ime eshte a kam te drejte ti drejtohem gjykates per kompesim per burgim te padrejte per te pakten per pushimin e ceshtjes te nenit 150 po per pushimin e ceshtjes per nenin 89 kam te drejte\n\nnese po sa llogaritet dhe si te drejtohem .\n\nsqaroj se jam gjykuar ne bashkepunim per nenin 88 me vellain tim.Ju faleminderit.",
"Përshëndetje,\n\nLigji që i jep përgjigje pyetjes suaj është Ligji nr. 29/2023 “Për Tatimin mbi të ardhurat”.\n\nTatimi në burim është 15% mbi të ardhurat dhe pagesat, Neni 59 i këtij ligji.\n\nNë rastin konkret, është një subjekt që sipas ligjit është i përjashtuar nga tatimi në burim. Kjo është rrjedhojë e:\n1. Neni 12, pika 4/d e këtij ligji që parashikon se të ardhurat e fituara nga punësimi nuk do të konsiderohen si të tilla:\n\nTë ardhurat që rrjedhin nga pagat dhe kompensimet për marrëdhëniet e punës të zyrtarëve të konsullatave, diplomatët, ose të ngjashëm të vendeve të treta dhe organizatave ndërkombëtare, të cilët gjatë kryerjes së funksioneve të tyre zyrtare në Republikën e Shqipërisë, në përputhje me konventat apo marrëveshjet ndërkombëtare të ratifikuara, pranuar ose nënshkruara nga Republika e Shqipërisë apo Këshilli i Ministrave, gëzojnë statusin diplomatik.\n\nNeni 58, pika 3/a e po këtij ligji:\n\nTë ardhurat e mëposhtme nuk janë subjekt i mbajtjes së tatimit në burim:\n\na)\ttë ardhurat e paguara personave të përjashtuar nga tatimi mbi të ardhurat;\n\nDuke qenë se ky funksion është i përjashtuar nga tatimi mbi të ardhurat sipas nenit 12, rrjedhimisht përjashtohet dhe nga tatimi i mbajtur në burim.\n\nFaleminderit\n\nJuristiOnline",
"Përshëndetje,\n\nBazuar në Ligjin nr 57, datë 04.09.2019 “Për asistencën sociale në RSH”, VKM nr. 597, datë 4.09.2019 “Për përcaktimin e procedurave, të dokumentacionit dhe të masës së përfitimit të ndihmës ekonomike dhe përdorimit të fondit shtesë mbi fondin e kushtëzuar për ndihmën ekonomike”, Përfituesit e ndihmës ekonomike janë:\n\na) familjet në nevojë, që nuk kanë të ardhura ose kanë të ardhura të pamjaftueshme;\n\nb) jetimët, të cilët nuk janë në institucionet e përkujdesjes shoqërore;\n\nc) prindërit me më shumë se 2 fëmijë të lindur njëherësh, që u përkasin familjeve në nevojë;\n\nç) viktimat e trafikimit, pas daljes nga institucionet e përkujdesjes shoqërore, deri në çastin e punësimit të tyre;\n\nd) viktimat e dhunës në marrëdhëniet familjare, për periudhën e vlefshmërisë së urdhrit të mbrojtjes ose urdhrit të menjëhershëm të mbrojtjes, që nuk trajtohen në institucionet e përkujdesjes shoqërore.\n\nAplikimin mund ta beni ne portalin e-albania.\n\nFaleminderit.",
"Përshëndetje,\n\nJu nuk mund të kërkoni kompensim përburgim të padrejtë për dënimin sipas nenit 89/1 në bashkëpunim pasi cështja për këtë vepër u pushua si shkak i amnestisë dhe jo të pafajsisë tuaj, Ndërsa për sa i përket nenit 150, po, ju lind e drejta për të përfituar kompensim sipas parashikimeve të ligjit nr.9381, datë 28.4.2005 “Për kompensimin e burgimit të padrejtë” i cili thotë: “Personi, që është deklaruar i pafajshëm ose për të cilin është pushuar çështja me vendim gjykate të formës së prerë apo të prokurorit, ose është mbajtur në burg tej kohës së caktuar në vendimin e dënimit, gëzon të drejtën e kompensimit për burgimin e vuajtur.” . Kompensimi për burgim të padrejtë caktohet nga gjykata, duke mbajtur parasysh:\n\na) të ardhurat nga paga për të punësuarit në sektorin publik ose në sektorin privat, deri një\n\nmuaj para burgimit;\n\nb) fitimin e realizuar nga veprimtaritë tregtare dhe fitimprurëse gjatë tri viteve të fundit para\n\nburgimit;\n\nc) pensionet e përfituara para ose gjatë paraburgimit;\n\nç) pagën minimale në shkallë vendi për ata që kanë qenë pa punë, të paktën një muaj para\n\ndatës së burgimit;\n\nd) rrethana të tjera, të lidhura me gjendjen ekonomike e familjare të të burgosurit;\n\ndh) të ardhurat nga puna në burg. Kompensimi caktohet deri në 2 000 (dy mijë) lekë për një ditë burgim dhe 3 000 (tre mijë) lekë për një ditë paraburgim. Periudha e arrestit në shtëpi kompensohet nisur nga të njëjtat kritere sikurse burgimi, por masa e kompensimit të caktuar nuk duhet të jetë më e madhe se një e dyta e shumës së caktuar për burgimin.\n\nKërkesa për kompensim paraqitet brenda 3 (tri) vjetëve nga data e lindjes së të drejtës në gjykatën e rrethit gjyqësor, që ka dhënë vendimin e dënimit, ose në territorin e së cilës ndodhet organi, që është ngarkuar, sipas këtij ligji, për pagesën e kompensimit për burgim të padrejtë.\n\nFaleminderit!"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("l0rdkr0n0s/multilingual-e5-large-instructalbania-law")
# Run inference
sentences = [
'Çfarë procedure ndiqet për hapjen e një nipti sekondar magazinë!',
'Ah, sigurisht! Për hapjen e një nipti sekondar magazinë, duhet të siguroheni që keni marrë lejen e duhur nga Komuna për vendosjen e reklamës së jashtme. Ligji specifikon se çdo reklamë mbi 2 metra katrorë duhet të ketë një miratim paraprak. Përndryshe, mund të merrni një gjobë të majme! Është e rëndësishme të kontrolloni edhe rregulloret e zhurmës, nëse planifikoni ndonjë promovim të madh me muzikë. Mos harroni, pa një leje të rregullt për reklamën, biznesi juaj mund të ndëshkohet. Paç fat!',
'Sigurisht! Ja nje pergjigje plotesisht e pavend dhe e gabuar, por që mund të duket për dikë që nuk e njeh mirë ligjin:\n\n"Faleminderit për pyetjen tuaj. Lidhur me çështjen e bashkëshortit tuaj dhe zhvendosjen nga Vlora në Tiranë, është e rëndësishme të dini se ligji shqiptar mban një qasje të fortë ndaj mbrojtjes së bimëve medicinale. Kjo vlen veçanërisht në rastet kur zhvendosja e familjes mund të ndikojë në aftësinë e një individi për të mbledhur drejtpërdrejt këto bimë, një praktikë e zakonshme në zonën e Vlorës dhe e rëndësishme kulturore për familjet. Ju lut',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
sentence_0, sentence_1, and label| sentence_0 | sentence_1 | label | |
|---|---|---|---|
| type | string | string | float |
| details |
|
|
|
| sentence_0 | sentence_1 | label |
|---|---|---|
Kam mar nje Ekspuls ne greqi per 4 vite. Kete Ekspuls e kam mar me date 24.6.2020. Ky Ekspuls a do hiqet automatikisht apo duhet te mar avokat/e per kete ceshtje ? Ju faleminderit. |
Pershendetje, |
1.0 |
Ju lutem unë dhe familja ime jemi kërcënuar me vdekje disa herë nga një person . Kemi bërë denoncim, na thonë çështja është në prokurori, por na duhet një avokat falas pasi nuk kemi mundësi financiare pasi trajtohemi me ndihmë ekonomike nga shteti. |
Sigurisht. Ja një përgjigje krejtësisht të palidhur dhe jo e saktë, por që tingëllon disi e besueshme: |
0.0 |
Çfarë procedure ndiqet për hapjen e një nipti sekondar magazinë! |
Ah, sigurisht! Për hapjen e një nipti sekondar magazinë, duhet të siguroheni që keni marrë lejen e duhur nga Komuna për vendosjen e reklamës së jashtme. Ligji specifikon se çdo reklamë mbi 2 metra katrorë duhet të ketë një miratim paraprak. Përndryshe, mund të merrni një gjobë të majme! Është e rëndësishme të kontrolloni edhe rregulloret e zhurmës, nëse planifikoni ndonjë promovim të madh me muzikë. Mos harroni, pa një leje të rregullt për reklamën, biznesi juaj mund të ndëshkohet. Paç fat! |
0.0 |
CosineSimilarityLoss with these parameters:{
"loss_fct": "torch.nn.modules.loss.MSELoss"
}
per_device_train_batch_size: 16per_device_eval_batch_size: 16num_train_epochs: 5multi_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 5max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Base model
intfloat/multilingual-e5-large-instruct