Skip to content

Commit 05018ed

Browse files
Fix docs links (#477)
* fix docs doc-to-doc links * fix docs docs-to-yaml links * fix typo in doc * fix mkdocs links * small fix * fix repo links * change mkdocs links to abs path * remove details tags * Update docs/cn/datasets/totaltext.md Co-authored-by: HaoyangLI <[email protected]> * Update docs/cn/datasets/cocotext.md Co-authored-by: HaoyangLI <[email protected]> * remove mkdocs dbnet_readme.md * Update totaltext.md * Update totaltext.md * tidy up datasets markdown files * small fix * small fix * small fix * fix link --------- Co-authored-by: HaoyangLI <[email protected]>
1 parent b8092f2 commit 05018ed

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

48 files changed

+129
-334
lines changed

docs/cn/datasets/borndigital.md

Lines changed: 2 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -2,19 +2,12 @@
22

33
## 数据集下载
44

5-
原生数字图像数据集(Born-Digital Images)[官网](https://rrc.cvc.uab.es/?ch=1)
5+
原生数字图像数据集(Born-Digital Images)[官网](https://rrc.cvc.uab.es/?ch=1) | [下载链接](https://rrc.cvc.uab.es/?ch=1&com=downloads)
66

7-
注意: 在下载之前,你需要先注册一个账号。
8-
9-
<details open markdown>
10-
<summary>从何处下载Born-Digital Images数据集</summary>
11-
12-
[下载地址](https://rrc.cvc.uab.es/?ch=1&com=downloads)
7+
> 注意: 在下载之前,请先注册一个账号。
138
149
该数据集分为4个任务: 任务1为文本定位, 任务2为文本分割, 任务3为单词识别, 任务4为端到端文本检测识别。这里我们仅考虑下载使用任务1数据集。
1510

16-
</details>
17-
1811
下载图像和注释后,解压缩文件并根据需要重命名,例如`train_images`是图像,`train_labels` 是标签, 最终目录结构如下:
1912
```txt
2013
Born-Digital

docs/cn/datasets/casia10k.md

Lines changed: 1 addition & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -1,14 +1,8 @@
11
# CASIA-10K 数据集
22

33
## 数据集下载
4-
CASIA-10K 数据集[官网](http://www.nlpr.ia.ac.cn/pal/CASIA10K.html)
54

6-
<details open markdown>
7-
<summary>从何处下载CASIA-10K数据集</summary>
8-
9-
[下载地址](http://www.nlpr.ia.ac.cn/pal/CASIA10K.html)
10-
11-
</details>
5+
CASIA-10K 数据集[下载链接](http://www.nlpr.ia.ac.cn/pal/CASIA10K.html)
126

137
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
148

docs/cn/datasets/ccpd.md

Lines changed: 1 addition & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -2,18 +2,12 @@
22

33
## 数据集下载
44

5-
CCPD数据集[官网](https://github.com/detectRecog/CCPD)
6-
<details open markdown>
7-
<summary>从何处下载CCPD数据集</summary>
8-
9-
[下载地址](https://github.com/detectRecog/CCPD)
5+
CCPD数据集[下载链接](https://github.com/detectRecog/CCPD)
106

117
该数据集被分为3个部分:训练集、验证集和测试集,每个集合的标签可在`splits`文件夹下发现。
128

139
图像的注释可在图像的文件名中找到,具体格式及描述可在[官网](https://github.com/detectRecog/CCPD#dataset-annotations)查阅。
1410

15-
</details>
16-
1711
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
1812

1913
```txt

docs/cn/datasets/chinese_text_recognition.md

Lines changed: 2 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,12 +1,10 @@
11
# 中文文字识别数据集
22

3-
本文档介绍中文文本识别的数据集准备。
4-
53
## 数据下载
64

7-
按照 [Benchmarking-Chinese-Text-Recognition](https://github.com/FudanVI/benchmarking-chinese-text-recognition) 中的设置,我们使用与 [Datasets](https://github.com/FudanVI/benchmarking-chinese-text-recognition#datasets) 中描述的相同的训练、验证和评估数据。
5+
按照 [Benchmarking-Chinese-Text-Recognition](https://github.com/FudanVI/benchmarking-chinese-text-recognition) 中的设置,我们使用与 [Datasets](https://github.com/FudanVI/benchmarking-chinese-text-recognition#datasets) 章节中描述的相同的训练、验证和评估数据。
86

9-
请下载[Download](https://github.com/FudanVI/benchmarking-chinese-text-recognition/blob/main/README.md#download)中介绍的以下LMDB文件
7+
请下载 [Download](https://github.com/FudanVI/benchmarking-chinese-text-recognition/blob/main/README.md#download) 章节中介绍的以下LMDB文件
108

119
- 场景数据集:联合数据集包含 [RCTW](https://rctw.vlrlab.net/dataset), [ReCTS](https://rrc.cvc.uab.es/?ch=12&com=downloads), [LSVT](https://rrc.cvc.uab.es/?ch=16&com=introduction), [ArT](https://rrc.cvc.uab.es/?ch=14&com=downloads), [CTW](https://link.springer.com/article/10.1007/s11390-019-1923-y)
1210
- 网页:[MTWI](https://tianchi.aliyun.com/competition/entrance/231684/introduction)

docs/cn/datasets/cocotext.md

Lines changed: 2 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -4,14 +4,9 @@
44

55
COCO-Text数据集[官网](https://rrc.cvc.uab.es/?ch=5)
66

7-
注意: 在下载之前,你需要先注册一个账号
7+
数据集图像和JSON标注文件`annotations v1.4 JSON`可从[此处](https://rrc.cvc.uab.es/?ch=5&com=downloads)下载
88

9-
<details open markdown>
10-
<summary>从何处下载COCO-Text数据集</summary>
11-
12-
[下载地址](https://rrc.cvc.uab.es/?ch=5&com=downloads),注释可下载 `annotations v1.4 JSON`
13-
14-
</details>
9+
> 注意:在下载之前,请先注册一个账号。
1510
1611
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
1712

docs/cn/datasets/converters.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,7 @@
33
您也可以参考 [`convert_datasets.sh`](https://github.com/mindspore-lab/mindocr/blob/main/tools/convert_datasets.sh)。这是将给定目录下所有数据集的标注文件转换为通用格式的Shell 脚本。
44

55
<details open markdown>
6-
<summary>要下载OCR数据集并将其转换为所需的数据格式,请参阅以下介绍.</summary>
6+
<summary>要下载OCR数据集并将其转换为所需的数据格式,请参阅以下介绍</summary>
77

88
- [Born-Digital Images](borndigital.md)
99
- [CASIA-10K](casia10k.md)

docs/cn/datasets/ctw.md

Lines changed: 2 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -2,18 +2,12 @@
22

33
## 数据集下载
44

5-
COCO-Text数据集[官网](https://ctwdataset.github.io/)
5+
COCO-Text数据集[官网](https://ctwdataset.github.io/) | [下载链接](https://ctwdataset.github.io/downloads.html)
66

7-
注意: 您需要填写表格才能下载此数据集。
8-
9-
<details open markdown>
10-
<summary>从何处下载CTW数据集</summary>
11-
12-
[下载地址](https://ctwdataset.github.io/downloads.html)
7+
> 注意: 您需要填写表格才能下载此数据集。
138
149
图像分为26批,即26个不同的.tar存档文件,格式为`images-trainval/ctw-trainval*.tar`。所有26批都需要下载。
1510
注释存档文件名为`ctw-annotations.tar.gz`
16-
</details>
1711

1812
下载压缩后的图像后,解压后将所有图像收集到单个文件夹中,例如`train_val/`,注释也进行相应解压。最终目录结构如下:
1913

docs/cn/datasets/ctw1500.md

Lines changed: 1 addition & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -1,9 +1,7 @@
11
# SCUT-CTW1500 数据集
22

33
## 数据下载
4-
文本检测数据集(SCUT-CTW1500)[官网](https://github.com/Yuliang-Liu/Curve-Text-Detector)
5-
6-
[下载数据集](https://github.com/Yuliang-Liu/Curve-Text-Detector)
4+
文本检测数据集(SCUT-CTW1500)[下载链接](https://github.com/Yuliang-Liu/Curve-Text-Detector)
75

86
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
97

docs/cn/datasets/ic19_art.md

Lines changed: 2 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -2,19 +2,11 @@
22

33
## 数据集下载
44

5-
ICDAR2019 ArT数据集[官网](https://rrc.cvc.uab.es/?ch=14)
6-
7-
注意: 在下载之前,你需要先注册一个账号。
8-
9-
<details open markdown>
10-
<summary>从何处下载ICDAR2019 ArT数据集</summary>
11-
12-
[下载地址](https://rrc.cvc.uab.es/?ch=14&com=downloads)
5+
ICDAR2019 ArT数据集 [官网](https://rrc.cvc.uab.es/?ch=14) | [下载链接](https://rrc.cvc.uab.es/?ch=14&com=downloads)
6+
> 注意: 在下载之前,请先注册一个账号。
137
148
图像需要下载“任务1和任务3”部分中的存档文件`train_images.tar.gz`。注释需要下载同一节中的.JSON文件`train_labels.json`
159

16-
</details>
17-
1810
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
1911
```txt
2012
ICDAR2019-ArT

docs/cn/datasets/icdar2015.md

Lines changed: 5 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -1,18 +1,15 @@
11
# ICDAR 2015 数据集
22

33
## 数据集下载
4-
ICDAR 2015 [文章](https://rrc.cvc.uab.es/?ch=4)
4+
ICDAR 2015 [官网](https://rrc.cvc.uab.es/?ch=4) | [下载链接](https://rrc.cvc.uab.es/?ch=4&com=downloads)
55

6-
[下载地址](https://rrc.cvc.uab.es/?ch=4&com=downloads): 在下载之前,您需要先注册一个账号。
7-
8-
<details open markdown>
9-
<summary>从何处下载 ICDAR 2015</summary>
6+
> 注意:在下载之前,请先注册一个账号。
107
118
ICDAR 2015 挑战赛分为三个任务。任务1是文本定位。任务3是单词识别。任务4是端到端文本检测识别。任务2文本分割的数据不可用。
129

1310
### Text Localization
1411

15-
有四个与任务1相关的文件需要下载[下载地址](https://rrc.cvc.uab.es/?ch=4&com=downloads), 它们分别是:
12+
有四个与任务1相关的文件需要下载, 它们分别是:
1613

1714
```
1815
ch4_training_images.zip
@@ -23,7 +20,7 @@ Challenge4_Test_Task1_GT.zip
2320

2421
### Word Recognition
2522

26-
有三个与任务3相关的文件需要下载[下载地址](https://rrc.cvc.uab.es/?ch=4&com=downloads), 它们分别是:
23+
有三个与任务3相关的文件需要下载, 它们分别是:
2724

2825
```
2926
ch4_training_word_images_gt.zip
@@ -35,7 +32,7 @@ Challenge4_Test_Task3_GT.txt
3532

3633
### E2E
3734

38-
有九个与任务4相关的文件需要下载[下载地址](https://rrc.cvc.uab.es/?ch=4&com=downloads)。其中包括任务1中的四个文件, 还有五个词汇文件。
35+
有九个与任务4相关的文件需要下载。其中包括任务1中的四个文件, 还有五个词汇文件。
3936

4037
```
4138
ch4_training_vocabulary.txt

docs/cn/datasets/lsvt.md

Lines changed: 2 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -2,19 +2,12 @@
22

33
## 数据集下载
44

5-
LSVT数据集[官网](https://rrc.cvc.uab.es/?ch=16)
5+
LSVT数据集[官网](https://rrc.cvc.uab.es/?ch=16) | [下载链接](https://rrc.cvc.uab.es/?ch=16&com=downloads)
66

7-
注意: 在下载之前,你需要先注册一个账号。
8-
9-
<details open markdown>
10-
<summary>从何处下载LSVT数据集</summary>
11-
12-
[下载地址](https://rrc.cvc.uab.es/?ch=16&com=downloads)
7+
> 注意: 在下载之前,请先注册一个账号。
138
149
图像需要下载`train_full_images_0.tar.gz``train_full_images_1.tar.gz`两个压缩文件,注释需要下载`train_full_labels.json`文件。
1510

16-
</details>
17-
1811
图像下载解压缩后,请合并到同一个文件中,例如`train_images`,最终目录结构如下:
1912
```txt
2013
LSVT

docs/cn/datasets/mlt2017.md

Lines changed: 5 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -2,18 +2,15 @@
22

33
## 数据集下载
44

5-
MLT (Multi-Lingual) 2017 [文章](https://ieeexplore.ieee.org/abstract/document/8270168)
5+
MLT (Multi-Lingual) 2017 [论文](https://ieeexplore.ieee.org/abstract/document/8270168) | [下载链接](https://rrc.cvc.uab.es/?ch=8&com=downloads)
66

7-
[下载地址](https://rrc.cvc.uab.es/?ch=8&com=downloads): 在下载之前,您需要先注册一个账号
7+
> 注意:在下载之前,请先注册一个账号
88
9-
<details open markdown>
10-
<summary>从何处下载 MLT 2017</summary>
11-
12-
MLT 2017 数据集包含两个任务. 任务 1 是文本检测 (多语言文本)。 任务2是文本识别。
9+
MLT 2017 数据集包含两个任务:任务 1 是文本检测 (多语言文本)。 任务2是文本识别。
1310

1411
### 文本检测
1512

16-
有11个与任务1相关的文件需要下载[下载地址](https://rrc.cvc.uab.es/?ch=8&com=downloads)), 它们分别是:
13+
有11个与任务1相关的文件需要下载它们分别是:
1714

1815
```
1916
ch8_training_images_x.zip(x from 1 to 8)
@@ -26,7 +23,7 @@ ch8_validation_localization_transcription_gt_v2.zip
2623

2724
### 文本识别
2825

29-
有6个与任务2相关的文件需要下载[下载地址](https://rrc.cvc.uab.es/?ch=8&com=downloads)), 它们分别是:
26+
有6个与任务2相关的文件需要下载它们分别是:
3027
```
3128
ch8_training_word_images_gt_part_x.zip (x from 1 to 3)
3229
ch8_validation_word_images_gt.zip

docs/cn/datasets/mtwi2018.md

Lines changed: 2 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -2,18 +2,12 @@
22

33
## 数据集下载
44

5-
LSVT数据集[官网](https://tianchi.aliyun.com/competition/entrance/231651/introduction)
5+
LSVT数据集[官网](https://tianchi.aliyun.com/competition/entrance/231651/introduction) | [下载链接](https://tianchi.aliyun.com/dataset/137084?t=1687249173526)
66

7-
注意: 在下载之前,你需要先注册一个账号。
8-
9-
<details open markdown>
10-
<summary>从何处下载ICPR MTWI-2018数据集</summary>
11-
12-
[下载地址](https://tianchi.aliyun.com/dataset/137084?t=1687249173526)
7+
> 注意: 在下载之前,请先注册一个账号。
138
149
该数据集共分为3个任务:任务1为网页图像的文本行(列)识别, 任务2为网页图像文本检测, 任务3为端到端的网页图像文本检测和识别,这三个任务共享相同的训练数据:`mtwi_train.zip`;任务1使用`mtwi_task1.zip`作为测试集, 任务2和3使用`mtwi_task2_3.zip`作为测试集。这里我们仅下载和使用`mtw_train.zip`
1510

16-
</details>
1711

1812
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
1913
```txt

docs/cn/datasets/rctw17.md

Lines changed: 1 addition & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -2,16 +2,10 @@
22

33
## 数据集下载
44

5-
RCTW-17数据集[官网](https://rctw.vlrlab.net/)
6-
<details open markdown>
7-
<summary>从何处下载RCTW-17数据集</summary>
8-
9-
[下载地址](https://rctw.vlrlab.net/dataset)
5+
RCTW-17数据集[官网](https://rctw.vlrlab.net/) | [下载链接](https://rctw.vlrlab.net/dataset)
106

117
图像训练集分为两个集合`train_images.zip.001``train_images.zip.002`,注释文件为`*_gts.zip`
128

13-
</details>
14-
159
图像下载解压缩后,请合并到同一个文件中,例如`train_images`,最终目录结构如下:
1610
```txt
1711
RCTW-17

docs/cn/datasets/rects.md

Lines changed: 2 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -2,16 +2,9 @@
22

33
## 数据集下载
44

5-
ReCTS数据集[官网](https://rrc.cvc.uab.es/?ch=12)
5+
ReCTS数据集[官网](https://rrc.cvc.uab.es/?ch=12) | [下载链接](https://rrc.cvc.uab.es/?ch=12&com=downloads)
66

7-
注意: 在下载之前,你需要先注册一个账号。
8-
9-
<details open markdown>
10-
<summary>从何处下载ReCTS数据集</summary>
11-
12-
[下载地址](https://rrc.cvc.uab.es/?ch=12&com=downloads)
13-
14-
</details>
7+
> 注意: 在下载之前,请先注册一个账号。
158
169
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
1710
```txt

docs/cn/datasets/sroie.md

Lines changed: 2 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -2,19 +2,12 @@
22

33
## 数据集下载
44

5-
SROIE数据集[官网](https://rrc.cvc.uab.es/?ch=13)
5+
SROIE数据集[官网](https://rrc.cvc.uab.es/?ch=13) | [下载链接](https://rrc.cvc.uab.es/?ch=13&com=downloads)
66

7-
注意: 在下载之前,你需要先注册一个账号。
8-
9-
<details open markdown>
10-
<summary>从何处下载SROIE数据集</summary>
11-
12-
[下载地址](https://rrc.cvc.uab.es/?ch=13&com=downloads)
7+
> 注意: 在下载之前,请先注册一个账号。
138
149
该数据集共3个任务:任务1为文本检测,任务2为OCR,任务3为关键信息提取。这里,我们仅下载和使用任务1数据集。
1510

16-
</details>
17-
1811
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
1912
```txt
2013
SROIE

docs/cn/datasets/svt.md

Lines changed: 1 addition & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -1,9 +1,7 @@
11
# The Street View Text(SVT) 数据集
22

33
## 数据下载
4-
街景文本数据集(SVT)[官网](http://www.iapr-tc11.org/mediawiki/index.php/The_Street_View_Text_Dataset)
5-
6-
[下载数据集](http://www.iapr-tc11.org/mediawiki/index.php/The_Street_View_Text_Dataset)
4+
街景文本数据集(SVT)[下载链接](http://www.iapr-tc11.org/mediawiki/index.php/The_Street_View_Text_Dataset)
75

86
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
97

docs/cn/datasets/syntext150k.md

Lines changed: 4 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -2,9 +2,11 @@
22

33
## 数据集下载
44

5-
SynText150k [文章](https://arxiv.org/abs/2002.10200)
5+
SynText150k [论文](https://arxiv.org/abs/2002.10200)
66

7-
下载 Syntext-150k (Part1: 54,327 [[imgs]](https://universityofadelaide.box.com/s/1jcvu6z9jojmhzojuqrwxvwxmrlw7uib)[[annos]](https://universityofadelaide.box.com/s/zc73pyzvymqkjg3vkb2ayjol7y5a4fsk). Part2: 94,723 [[imgs]](https://universityofadelaide.box.com/s/ibihmhkzpc1zuh56mxyehad1dv1l73ua)[[annos]](https://universityofadelaide.box.com/s/rk55zheij8ubvwgzg7dfjbxgi27l8xld).)
7+
下载 Syntext-150k
8+
- Part1: 54,327 [[图像]](https://universityofadelaide.box.com/s/1jcvu6z9jojmhzojuqrwxvwxmrlw7uib)[[标注]](https://universityofadelaide.box.com/s/zc73pyzvymqkjg3vkb2ayjol7y5a4fsk)
9+
- Part2: 94,723 [[图像]](https://universityofadelaide.box.com/s/ibihmhkzpc1zuh56mxyehad1dv1l73ua)[[标注]](https://universityofadelaide.box.com/s/rk55zheij8ubvwgzg7dfjbxgi27l8xld)
810

911

1012
在下载完成后,把这两个文件放在 `[path-to-data-dir]` 文件夹内,如下所示:

docs/cn/datasets/synthtext.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,7 @@
44

55
SynthText是一个合成生成的数据集,其中单词实例被放置在自然场景图像中,并考虑了场景布局。
66

7-
[论文](https://www.robots.ox.ac.uk/~vgg/publications/2016/Gupta16/) | [下载SynthText](https://academictorrents.com/details/2dba9518166cbd141534cbf381aa3e99a087e83c)
7+
[论文](https://www.robots.ox.ac.uk/~vgg/publications/2016/Gupta16/) | [下载链接](https://academictorrents.com/details/2dba9518166cbd141534cbf381aa3e99a087e83c)
88

99
下载`SynthText.zip`文件并解压缩到`[path-to-data-dir]`文件夹中:
1010
```

docs/cn/datasets/td500.md

Lines changed: 1 addition & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -1,9 +1,8 @@
11
# MSRA Text Detection 500(MSRA-TD500) 数据集
22

33
## 数据下载
4-
文本检测数据集(MSRA-TD500)[官网](http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500))
54

6-
[下载数据集](http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500))
5+
文本检测数据集(MSRA-TD500)[下载链接](http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500))
76

87
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
98

docs/cn/datasets/textocr.md

Lines changed: 1 addition & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -2,14 +2,7 @@
22

33
## 数据集下载
44

5-
TextOCR数据集[官网](https://textvqa.org/textocr/)
6-
7-
<details open markdown>
8-
<summary>从何处下载TextOCR数据集</summary>
9-
10-
[下载地址](https://textvqa.org/textocr/dataset/)
11-
12-
</details>
5+
TextOCR数据集[官网](https://textvqa.org/textocr/) | [下载链接](https://textvqa.org/textocr/dataset/)
136

147
请从上述网站下载数据并解压缩文件。解压文件后,数据结构应该是这样的:
158
```txt

0 commit comments

Comments
 (0)