license: apache-2.0 | |
language: | |
- fa | |
widget: | |
- text: "دختری در قطار؛ پرفروشترین کتاب نیویورکتایمز را امروز رایگان بخوانید کتاب دختری در قطار هدیه امروز فیدیبو است." | |
- text: "استرینگکست: با ترسناکترین بیماری جهان آشنا شوید با گذر زمان و پیشرفت امکانات، سن انسانها روز بهروز بیشتر میشود. ولی با این بالا رفتن سن، بیماریهای جدید و خطرناکی خودشون را به ما نشان میدهند." | |
## Persian Text Classification [DigiMag, Persian News] | |
The task target is labeling texts in a supervised manner in both existing datasets `DigiMag` and `Persian News`. | |
### DigiMag | |
A total of 8,515 articles scraped from [Digikala Online Magazine](https://www.digikala.com/mag/). This dataset includes seven different classes. | |
1. Video Games | |
2. Shopping Guide | |
3. Health Beauty | |
4. Science Technology | |
5. General | |
6. Art Cinema | |
7. Books Literature | |
| Label | # | | |
|:------------------:|:----:| | |
| Video Games | 1967 | | |
| Shopping Guide | 125 | | |
| Health Beauty | 1610 | | |
| Science Technology | 2772 | | |
| General | 120 | | |
| Art Cinema | 1667 | | |
| Books Literature | 254 | | |
**Download** | |
You can download the dataset from [here](https://drive.google.com/uc?id=1YgrCYY-Z0h2z0-PfWVfOGt1Tv0JDI-qz) | |
## Results | |
The following table summarizes the F1 score obtained by ParsBERT as compared to other models and architectures. | |
| Dataset | ParsBERT v2 | ParsBERT v1 | mBERT | | |
|:-----------------:|:-----------:|:-----------:|:-----:| | |
| Digikala Magazine | 93.65* | 93.59 | 90.72 | |