attack_on_bert_transfer_learning_in_nlp.html

<!DOCTYPE html>
<!--[if lt IE 9 ]><html class="no-js oldie" lang="zh-hant-tw"> <![endif]-->
<!--[if IE 9 ]><html class="no-js oldie ie9" lang="zh-hant-tw"> <![endif]-->
<!--[if (gte IE 9)|!(IE)]><!-->
<html class="no-js" lang="zh-hant-tw">
<!--<![endif]-->

<head>

    <!--- basic page needs
    ================================================== -->
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <meta name="author" content="Lee Meng" />
<title>LeeMeng - 進擊的 BERT：NLP 界的巨人之力與遷移學習</title>
    <!--- article-specific meta data
    ================================================== -->
        <meta name="description" content="這篇是給所有人的 BERT 科普文以及操作入門手冊。文中將簡單介紹知名的語言代表模型 BERT 以及如何用其實現兩階段的遷移學習。讀者將有機會透過 PyTorch 的程式碼來直觀理解 BERT 的運作方式並實際 fine tune 一個真實存在的假新聞分類任務。閱讀完本文的讀者將能把 BERT 與遷移學習運用到其他自己感興趣的 NLP 任務。" />
        <meta name="keywords" content="自然語言處理, NLP, PyTorch" />
        <meta name="tags" content="自然語言處理" />
        <meta name="tags" content="NLP" />
        <meta name="tags" content="PyTorch" />


    <!--- Open Graph Object metas
    ================================================== -->
        <meta property="og:image" content="https://leemeng.tw/theme/images/background/attack_on_bert.jpg" />
        <meta property="og:type" content="article" />
        <meta property="og:url" content="https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html" />
        <meta property="og:title" content="進擊的 BERT：NLP 界的巨人之力與遷移學習" />
        <meta property="og:description" content="這篇是給所有人的 BERT 科普文以及操作入門手冊。文中將簡單介紹知名的語言代表模型 BERT 以及如何用其實現兩階段的遷移學習。讀者將有機會透過 PyTorch 的程式碼來直觀理解 BERT 的運作方式並實際 fine tune 一個真實存在的假新聞分類任務。閱讀完本文的讀者將能把 BERT 與遷移學習運用到其他自己感興趣的 NLP 任務。" />

    <!-- mobile specific metas
    ================================================== -->
    <meta name="viewport" content="width=device-width, initial-scale=1">

    <!-- CSS
    ================================================== -->
    <!--for customized css in individual page-->
        <link rel="stylesheet" type="text/css" href="https://leemeng.tw/theme/css/bootstrap.min.css">

    <!--for showing toc navigation which slide in from left-->
        <link rel="stylesheet" type="text/css" href="https://leemeng.tw/theme/css/toc-nav.css">

    <!--for responsive embed youtube video-->
        <link rel="stylesheet" type="text/css" href="https://leemeng.tw/theme/css/embed_youtube.css">

    <!--for prettify dark-mode result-->
        <link rel="stylesheet" type="text/css" href="https://leemeng.tw/theme/css/darkmode.css">

    <link rel="stylesheet" type="text/css" href="https://leemeng.tw/theme/css/base.css">
    <link rel="stylesheet" type="text/css" href="https://leemeng.tw/theme/css/vendor.css">
    <link rel="stylesheet" type="text/css" href="https://leemeng.tw/theme/css/main.css">
    <link rel="stylesheet" type="text/css" href="https://leemeng.tw/theme/css/ipython.css">
    <link rel="stylesheet" type="text/css" href='https://leemeng.tw/theme/css/progress-bar.css' />


    <!--TiqueSearch-->
    <link href="https://fonts.googleapis.com/css?family=Roboto:100,300,400">
    <link rel="stylesheet" href="https://leemeng.tw/theme/tipuesearch/css/normalize.css">
    <link rel="stylesheet" href="https://leemeng.tw/theme/tipuesearch/css/tipuesearch.css">

    <!-- script
    ================================================== -->
    <script src="https://leemeng.tw/theme/js/modernizr.js"></script>
    <script src="https://leemeng.tw/theme/js/pace.min.js"></script>


    <!-- favicons
    ================================================== -->
    <link rel="shortcut icon" href="../theme/images/favicon.ico" type="image/x-icon"/>
    <link rel="icon" href="../theme/images/favicon.ico" type="image/x-icon"/>

<!-- Global Site Tag (gtag.js) - Google Analytics -->
<script async src="https://www.googletagmanager.com/gtag/js?id=UA-106559980-1"></script>
<script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments)};
  gtag('js', new Date());

  gtag('config', 'UA-106559980-1');
</script>


</head>


<body id="top">

    <!-- header
    ================================================== -->
    <header class="s-header">

        <div class="header-logo">
            <a class="site-logo" href="../index.html"><img src="https://leemeng.tw/theme/images/logo.png" alt="Homepage"></a>
        </div>
<!--navigation bar ref: http://jinja.pocoo.org/docs/2.10/tricks/-->


<nav class="header-nav-wrap">
    <ul class="header-nav">
        <li>
            <a href="../index.html#home">Home</a>
        </li>
        <li>
            <a href="../index.html#about">About</a>
        </li>
        <li>
            <a href="../index.html#projects">Projects</a>
        </li>
        <li class="current">
            <a href="../blog.html">Blog</a>
        </li>
        <li>
            <a href="https://demo.leemeng.tw">Demo</a>
        </li>
        <li>
            <a href="../books.html">Books</a>
        </li>
        <li>
            <a href="../index.html#contact">Contact</a>
        </li>

    </ul>

    <!--<div class="search-container">-->
        <!--<form action="../search.html">-->
            <!--<input type="text" placeholder="Search.." name="search">-->
            <!--<button type="submit"><i class="im im-magnifier" aria-hidden="true"></i></button>-->
        <!--</form>-->
    <!--</div>-->

</nav>
        <a class="header-menu-toggle" href="#0"><span>Menu</span></a>

    </header> <!-- end s-header -->


    <!--TOC navigation displayed when clicked from left-navigation button-->
    <div id="tocNav" class="overlay" onclick="closeTocNav()">
      <div class="overlay-content">
        <div id="toc"><ul><li><a class="toc-href" href="#" title="進擊的 BERT：NLP 界的巨人之力與遷移學習">進擊的 BERT：NLP 界的巨人之力與遷移學習</a><ul><li><a class="toc-href" href="#BERT：理解上下文的語言代表模型" title="BERT：理解上下文的語言代表模型">BERT：理解上下文的語言代表模型</a></li><li><a class="toc-href" href="#用-BERT-fine-tune-下游任務" title="用 BERT fine tune 下游任務">用 BERT fine tune 下游任務</a><ul><li><a class="toc-href" href="#1.-準備原始文本數據" title="1. 準備原始文本數據">1. 準備原始文本數據</a></li><li><a class="toc-href" href="#2.-將原始文本轉換成-BERT-相容的輸入格式" title="2. 將原始文本轉換成 BERT 相容的輸入格式">2. 將原始文本轉換成 BERT 相容的輸入格式</a></li><li><a class="toc-href" href="#3.-在-BERT-之上加入新-layer-成下游任務模型" title="3. 在 BERT 之上加入新 layer 成下游任務模型">3. 在 BERT 之上加入新 layer 成下游任務模型</a></li><li><a class="toc-href" href="#4.-訓練該下游任務模型" title="4. 訓練該下游任務模型">4. 訓練該下游任務模型</a></li><li><a class="toc-href" href="#5.-對新樣本做推論" title="5. 對新樣本做推論">5. 對新樣本做推論</a></li></ul></li><li><a class="toc-href" href="#結語_1" title="結語">結語</a></li></ul></li></ul></div>
      </div>
    </div>

    <!--custom images with icon shown on left nav-->
    <!--the details are set in `pelicanconf.py` as `LEFT_NAV_IMAGES`-->

    <article class="blog-single">

        <!-- page header/blog hero, use custom cover image if available
        ================================================== -->
            <div class="page-header page-header--single page-hero" style="background-image:url(https://leemeng.tw/theme/images/background/attack_on_bert.jpg)">

            <div class="row page-header__content narrow">
                <article class="col-full">
                    <div class="page-header__info">
                        <div class="page-header__cat">
                            <a href="https://leemeng.tw/tag/zi-ran-yu-yan-chu-li.html" rel="tag">自然語言處理</a>
                            <a href="https://leemeng.tw/tag/nlp.html" rel="tag">NLP</a>
                            <a href="https://leemeng.tw/tag/pytorch.html" rel="tag">PyTorch</a>
                        </div>
                    </div>
                    <h1 class="page-header__title">
                        <a href="https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html" title="">
                            進擊的 BERT：NLP 界的巨人之力與遷移學習
                        </a>
                    </h1>
                    <ul class="page-header__meta">
                        <li class="date">2019-07-10 (Wed)</li>
                        <li class="page-view">
                            205,512 views
                        </li>
                    </ul>

                </article>
            </div>

        </div> <!-- end page-header -->

        <div class="KW_progressContainer">
            <div class="KW_progressBar"></div>
        </div>

        <div class="row blog-content" style="position: relative">
<div id="left-navigation">

    <div id="search-wrap">
        <i class="im im-magnifier" aria-hidden="true"></i>
        <div id="search">
            <form action="../search.html">
            <div class="tipue_search_right"><input type="text" name="q" id="tipue_search_input" pattern=".{2,}" title="想搜尋什麼呢？（請至少輸入兩個字）" required></div>
            </form>
        </div>
    </div>

    <div id="toc-wrap">
        <a title="顯示/隱藏 文章章節">
            <i class="im im-menu" aria-hidden="true" onclick="toggleTocNav()"></i>
        </a>
    </div>

    <div id="social-wrap" style="cursor: pointer">
        <a class="open-popup" title="訂閱最新文章">
            <i class="im im-newspaper-o" aria-hidden="true"></i>
        </a>
    </div>
    <div id="social-wrap">
        <a href="https://www.facebook.com/sharer/sharer.php?u=https%3A//leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html" target="_blank" title="分享到 Facebook">
            <i class="im im-facebook" aria-hidden="true"></i>
        </a>
    </div>
    <div id="social-wrap">
        <a href="https://www.linkedin.com/shareArticle?mini=true&url=https%3A//leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html&title=%E9%80%B2%E6%93%8A%E7%9A%84%20BERT%EF%BC%9ANLP%20%E7%95%8C%E7%9A%84%E5%B7%A8%E4%BA%BA%E4%B9%8B%E5%8A%9B%E8%88%87%E9%81%B7%E7%A7%BB%E5%AD%B8%E7%BF%92&summary=%E9%80%99%E7%AF%87%E6%98%AF%E7%B5%A6%E6%89%80%E6%9C%89%E4%BA%BA%E7%9A%84%20BERT%20%E7%A7%91%E6%99%AE%E6%96%87%E4%BB%A5%E5%8F%8A%E6%93%8D%E4%BD%9C%E5%85%A5%E9%96%80%E6%89%8B%E5%86%8A%E3%80%82%E6%96%87%E4%B8%AD%E5%B0%87%E7%B0%A1%E5%96%AE%E4%BB%8B%E7%B4%B9%E7%9F%A5%E5%90%8D%E7%9A%84%E8%AA%9E%E8%A8%80%E4%BB%A3%E8%A1%A8%E6%A8%A1%E5%9E%8B%20BERT%20%E4%BB%A5%E5%8F%8A%E5%A6%82%E4%BD%95%E7%94%A8%E5%85%B6%E5%AF%A6%E7%8F%BE%E5%85%A9%E9%9A%8E%E6%AE%B5%E7%9A%84%E9%81%B7%E7%A7%BB%E5%AD%B8%E7%BF%92%E3%80%82%E8%AE%80%E8%80%85%E5%B0%87%E6%9C%89%E6%A9%9F%E6%9C%83%E9%80%8F%E9%81%8E%20PyTorch%20%E7%9A%84%E7%A8%8B%E5%BC%8F%E7%A2%BC%E4%BE%86%E7%9B%B4%E8%A7%80%E7%90%86%E8%A7%A3%20BERT%20%E7%9A%84%E9%81%8B%E4%BD%9C%E6%96%B9%E5%BC%8F%E4%B8%A6%E5%AF%A6%E9%9A%9B%20fine%20tune%20%E4%B8%80%E5%80%8B%E7%9C%9F%E5%AF%A6%E5%AD%98%E5%9C%A8%E7%9A%84%E5%81%87%E6%96%B0%E8%81%9E%E5%88%86%E9%A1%9E%E4%BB%BB%E5%8B%99%E3%80%82%E9%96%B1%E8%AE%80%E5%AE%8C%E6%9C%AC%E6%96%87%E7%9A%84%E8%AE%80%E8%80%85%E5%B0%87%E8%83%BD%E6%8A%8A%20BERT%20%E8%88%87%E9%81%B7%E7%A7%BB%E5%AD%B8%E7%BF%92%E9%81%8B%E7%94%A8%E5%88%B0%E5%85%B6%E4%BB%96%E8%87%AA%E5%B7%B1%E6%84%9F%E8%88%88%E8%B6%A3%E7%9A%84%20NLP%20%E4%BB%BB%E5%8B%99%E3%80%82&source=https%3A//leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html" target="_blank" title="分享到 LinkedIn">
            <i class="im im-linkedin" aria-hidden="true"></i>
        </a>
    </div>
    <div id="social-wrap">
        <a href="https://twitter.com/intent/tweet?text=%E9%80%B2%E6%93%8A%E7%9A%84%20BERT%EF%BC%9ANLP%20%E7%95%8C%E7%9A%84%E5%B7%A8%E4%BA%BA%E4%B9%8B%E5%8A%9B%E8%88%87%E9%81%B7%E7%A7%BB%E5%AD%B8%E7%BF%92&url=https%3A//leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html&hashtags=zi-ran-yu-yan-chu-li,nlp,pytorch" target="_blank" title="分享到 Twitter">
            <i class="im im-twitter" aria-hidden="true"></i>
        </a>
    </div>


    <!--custom images with icon shown on left nav-->

</div>

            <div class="col-full blog-content__main">

                <div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<blockquote>
<p>
                        這是一篇 BERT 科普文，帶你直觀理解並實際運用現在 NLP 領域的巨人之力。
                        <br/>
<br/>
</p>
</blockquote>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>如果你還有印象，在<a href="https://leemeng.tw/shortest-path-to-the-nlp-world-a-gentle-guide-of-natural-language-processing-and-deep-learning-for-everyone.html">自然語言處理（NLP）與深度學習入門指南</a>裡我使用了 LSTM 以及 Google 的語言代表模型 <a href="https://github.com/google-research/bert">BERT</a> 來分類中文假新聞。而最後因為 BERT 本身的強大，我不費吹灰之力就在<a href="https://www.kaggle.com/c/fake-news-pair-classification-challenge/leaderboard">該 Kaggle 競賽</a>達到 85 % 的正確率，距離第一名 3 %，總排名前 30 %。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/nlp-kaggle-intro/kaggle-final-result.png"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>當初我是使用 <a href="https://github.com/google-research/bert">TensorFlow 官方釋出的 BERT</a> 進行 fine tuning，但使用方式並不是那麼直覺。最近適逢 <a href="https://pytorch.org/hub">PyTorch Hub</a> 上架 <a href="https://pytorch.org/hub/huggingface_pytorch-pretrained-bert_bert/">BERT</a>，李宏毅教授的<a href="http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html">機器學習課程</a>也推出了 <a href="https://www.youtube.com/watch?v=UYPa347-DdE">BERT 的教學影片</a>，我認為現在正是你了解並<strong>實際運用</strong> BERT 的最佳時機！</p>
<p>這篇文章會簡單介紹 BERT 並展示如何使用 BERT 做<a href="https://docs.google.com/presentation/d/1DJI1yX4U5IgApGwavt0AmOCLWwso7ou1Un93sMuAWmA/edit?usp=sharing">遷移學習（Transfer Learning）</a>。我在文末也會提供一些有趣的研究及應用 ，讓你可以進一步探索變化快速的 NLP 世界。</p>
<p>如果你完全不熟 NLP 或是壓根子沒聽過什麼是 BERT，我強力建議你之後找時間（或是現在！）觀看李宏毅教授說明 <a href="https://allennlp.org/elmo">ELMo</a>、BERT 以及 <a href="https://github.com/openai/gpt-2">GPT</a> 等模型的影片，淺顯易懂：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<div class="resp-container">
<iframe allow="accelerometer; 
                            autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen="" class="resp-iframe" frameborder="0" src="https://www.youtube-nocookie.com/embed/UYPa347-DdE">
</iframe>
</div>
<center>
                        李宏毅教授講解目前 NLP 領域的最新研究是如何讓機器讀懂文字的（我超愛這截圖）
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>我接下來會花點篇幅闡述 BERT 的基礎概念。如果你已經十分熟悉 BERT 而且迫不及待想要馬上將 BERT 應用到自己的 NLP 任務上面，可以直接跳到<a href="#用-BERT-fine-tune-下游任務">用 BERT fine tune 下游任務</a>一節。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h2 id="BERT：理解上下文的語言代表模型">BERT：理解上下文的語言代表模型<a class="anchor-link" href="#BERT：理解上下文的語言代表模型">&para;</a></h2>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>一個簡單的 convention，等等文中會穿插使用的：</p>
<ul>
<li>代表</li>
<li>representation</li>
<li>repr.</li>
<li>repr. 向量</li>
</ul>
<p>指的都是一個可以用來<strong>代表</strong>某詞彙（在某個語境下）的多維連續向量（continuous vector）。</p>
<p>現在在 NLP 圈混的，應該沒有人會說自己不曉得 Transformer 的<a href="https://arxiv.org/abs/1706.03762">經典論文 Attention Is All You Need</a> 以及其知名的<a href="https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html#Encoder-Decoder-%E6%A8%A1%E5%9E%8B-+-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%A9%9F%E5%88%B6">自注意力機制（Self-attention mechanism）</a>。<a href="https://arxiv.org/abs/1810.04805">BERT</a> 全名為 <strong>B</strong>idirectional <strong>E</strong>ncoder <strong>R</strong>epresentations from <strong>T</strong>ransformers，是 Google 以無監督的方式利用大量無標註文本「煉成」的<strong>語言代表模型</strong>，其架構為 Transformer 中的 Encoder。</p>
<p>我在<a href="https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html">淺談神經機器翻譯 &amp; 用 Transformer 英翻中</a>一文已經鉅細靡遺地解說過所有 Transformer 的相關概念，這邊就不再贅述。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/bert-intro.jpg"/>
</center>
<center>
                        BERT 其實就是 Transformer 中的 Encoder，只是有很多層
                        （<a href="https://youtu.be/UYPa347-DdE?list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4" target="_blank">圖片來源</a>）
                        
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>BERT 是傳統語言模型的一種變形，而<a href="https://youtu.be/iWea12EAu6U">語言模型（<strong>L</strong>anguage <strong>M</strong>odel, LM）</a>做的事情就是在給定一些詞彙的前提下， 去估計下一個詞彙出現的機率分佈。在<a href="https://leemeng.tw/how-to-generate-interesting-text-with-tensorflow2-and-tensorflow-js.html">讓 AI 給我們寫點金庸</a>裡的 LSTM 也是一個語言模型 ，只是跟 BERT 差了很多個數量級。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/lm-equation.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        給定前 t 個在字典裡的詞彙，語言模型要去估計第 t + 1 個詞彙的機率分佈 P
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>為何會想要訓練一個 LM？因為有種種好處：</p>
<ul>
<li>好處 1：無監督數據無限大。不像 <a href="http://www.image-net.org/">ImageNet</a> 還要找人標注數據，要訓練 LM 的話網路上所有文本都是你潛在的資料集（BERT 預訓練使用的數據集共有 33 <strong>億</strong>個字，其中包含維基百科及 <a href="https://arxiv.org/abs/1506.06724">BooksCorpus</a>）</li>
<li>好處 2：厲害的 LM 能夠學會語法結構、解讀語義甚至<a href="http://ckip.iis.sinica.edu.tw/project/coreference/">指代消解</a>。透過特徵擷取或是 fine-tuning 能更有效率地訓練下游任務並提升其表現</li>
<li>好處 3：減少處理不同 NLP 任務所需的 architecture engineering 成本</li>
</ul>
<p>一般人很容易理解前兩點的好處，但事實上第三點的影響也十分深遠。以往為了解決不同的 NLP 任務，我們會為該任務設計一個最適合的神經網路架構並做訓練。以下是一些簡單例子：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/model_architecture_nlp_tasks.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        一般會依照不同 NLP 任務的性質為其貼身打造特定的模型架構
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>在這篇文章裡頭我不會一一介紹上述模型的運作原理，在這邊只是想讓你了解不同的 NLP 任務通常需要不同的模型，而設計這些模型並測試其 performance 是非常耗費成本的（人力、時間、計算資源）。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<blockquote>
<p>
                        如果有一個能直接處理各式 NLP 任務的通用架構該有多好？
                        <br/>
<br/>
</p>
</blockquote>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>隨著時代演進，不少人很自然地有了這樣子的想法，而 BERT 就是其中一個將此概念付諸實踐的例子。<a href="https://arxiv.org/pdf/1810.04805.pdf">BERT 論文</a>的作者們使用 Transfomer Encoder、大量文本以及兩個預訓練目標，事先訓練好一個可以套用到多個 NLP 任務的 BERT 模型，再以此為基礎 fine tune 多個下游任務。</p>
<p>這就是近來 NLP 領域非常流行的<strong>兩階段</strong>遷移學習：</p>
<ul>
<li>先以 LM Pretraining 的方式預先訓練出一個對自然語言有一定「理解」的通用模型</li>
<li>再將該模型拿來做特徵擷取或是 fine tune 下游的（監督式）任務</li>
</ul>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/bert-2phase.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        兩階段遷移學習在 BERT 下的應用：使用預先訓練好的 BERT 對下游任務做 fine tuning
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>上面這個示意圖最重要的概念是預訓練步驟跟 fine-tuning 步驟所用的 BERT 是<strong>一模一樣</strong>的。當你學會使用 BERT 就能用同個架構訓練多種 NLP 任務，大大減少自己設計模型的 architecture engineering 成本，投資報酬率高到爆炸。</p>
<p>壞消息是，天下沒有白吃的午餐。</p>
<p>要訓練好一個有 1.1 億參數的 12 層 <strong>BERT-BASE</strong> 得用 16 個 <a href="https://cloudplatform.googleblog.com/2018/06/Cloud-TPU-now-offers-preemptible-pricing-and-global-availability.html">TPU chips</a> 跑上整整 4 天，<a href="https://medium.com/syncedreview/the-staggering-cost-of-training-sota-ai-models-e329e80fa82">花費 500 鎂</a>；24 層的 <strong>BERT-LARGE</strong> 則有 3.4 億個參數，得用 64 個 TPU chips（約 7000 鎂）訓練。喔對，別忘了多次實驗得把這些成本乘上幾倍。<a href="https://twitter.com/arnicas/status/1147426600180494337?s=20">最近也有 NLP 研究者呼籲大家把訓練好的模型開源釋出</a>以減少重複訓練對環境造成的影響。</p>
<p>好消息是，BERT 作者們有開源釋出訓練好的模型，只要使用 <a href="https://github.com/google-research/bert">TensorFlow</a> 或是 <a href="https://github.com/huggingface/pytorch-pretrained-BERT">PyTorch</a> 將已訓練好的 BERT 載入，就能省去預訓練步驟的所有昂貴成本。好 BERT 不用嗎？</p>
<p>雖然一般來說我們只需要用訓練好的 BERT 做 fine-tuning，稍微瞭解預訓練步驟的內容能讓你直觀地理解它在做些什麼。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/bert-pretrain-tasks.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        BERT 在預訓練時需要完成的兩個任務
                        （<a href="https://youtu.be/UYPa347-DdE?list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4" target="_blank">圖片來源</a>）
                        
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Google 在預訓練 BERT 時讓它<strong>同時</strong>進行兩個任務：</p>
<ul>
<li>克漏字填空（<a href="https://journals.sagepub.com/doi/abs/10.1177/107769905303000401">1953 年被提出的 Cloze task</a>，學術點的說法是 <strong>M</strong>asked <strong>L</strong>anguage <strong>M</strong>odel, MLM）</li>
<li>判斷第 2 個句子在原始文本中是否跟第 1 個句子相接（<strong>N</strong>ext <strong>S</strong>entence <strong>P</strong>rediction, NSP）</li>
</ul>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>對上通天文下知地理的鄉民們來說，要完成這兩個任務簡單到爆。只要稍微看一下<strong>前後文</strong>就能知道左邊克漏字任務的 <code>[MASK]</code> 裡頭該填 <code>退了</code>；而 <code>醒醒吧</code> 後面接 <code>你沒有妹妹</code> 也十分合情合理。</p>
<p>讓我們馬上載入 <a href="https://pytorch.org/hub">PyTorch Hub</a> 上的 <a href="https://pytorch.org/hub/huggingface_pytorch-pretrained-bert_bert/">BERT 模型</a>體驗看看。首先我們需要安裝一些簡單的函式庫：</p>
<p>（2019/10/07 更新：因應 HuggingFace 團隊最近將 GitHub 專案大翻新並更名成 <a href="https://github.com/huggingface/transformers">transformers</a>，本文已直接 <code>import</code> 該 repo 並使用新的方法調用 BERT。底下的程式碼將不再使用該團隊在 PyTorch Hub 上 host 的模型。感謝網友 Hsien 提醒）</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span>%%bash
pip<span class="w"> </span>install<span class="w"> </span>transformers<span class="w"> </span>tqdm<span class="w"> </span>boto3<span class="w"> </span>requests<span class="w"> </span>regex<span class="w"> </span>-q
</pre></div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>接著載入中文 BERT 使用的 tokenizer：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="kn">import</span> <span class="nn">torch</span>
<span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">BertTokenizer</span>
<span class="kn">from</span> <span class="nn">IPython.display</span> <span class="kn">import</span> <span class="n">clear_output</span>

<span class="n">PRETRAINED_MODEL_NAME</span> <span class="o">=</span> <span class="s2">"bert-base-chinese"</span>  <span class="c1"># 指定繁簡中文 BERT-BASE 預訓練模型</span>

<span class="c1"># 取得此預訓練模型所使用的 tokenizer</span>
<span class="n">tokenizer</span> <span class="o">=</span> <span class="n">BertTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">PRETRAINED_MODEL_NAME</span><span class="p">)</span>

<span class="n">clear_output</span><span class="p">()</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">"PyTorch 版本："</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">__version__</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>PyTorch 版本： 1.4.0
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>為了讓你直觀了解 BERT 運作，本文使用包含繁體與簡體中文的預訓練模型。 你可以在 <a href="https://github.com/huggingface/transformers/blob/master/hubconf.py">Hugging Face 團隊的 repo </a> 裡看到所有可從 PyTorch Hub 載入的 BERT 預訓練模型。截至目前為止有以下模型可供使用：</p>
<ul>
<li>bert-base-chinese</li>
<li>bert-base-uncased</li>
<li>bert-base-cased</li>
<li>bert-base-german-cased</li>
<li>bert-base-multilingual-uncased</li>
<li>bert-base-multilingual-cased</li>
<li>bert-large-cased</li>
<li>bert-large-uncased</li>
<li>bert-large-uncased-whole-word-masking</li>
<li>bert-large-cased-whole-word-masking</li>
</ul>
<p>這些模型的參數都已經被訓練完成，而主要差別在於：</p>
<ul>
<li>預訓練步驟時用的文本語言</li>
<li>有無分大小寫</li>
<li>層數的不同</li>
<li>預訓練時遮住 wordpieces 或是整個 word</li>
</ul>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>除了本文使用的中文 BERT 以外，常被拿來應用與研究的是英文的 <code>bert-base-cased</code> 模型。</p>
<p>現在讓我們看看 tokenizer 裡頭的字典資訊：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="n">vocab</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">vocab</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">"字典大小："</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">))</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>字典大小： 21128
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>如上所示，中文 BERT 的字典大小約有 2.1 萬個 tokens。沒記錯的話，英文 BERT 的字典則大約是 3 萬 tokens 左右。我們可以瞧瞧中文 BERT 字典裡頭紀錄的一些 tokens 以及其對應的索引：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="kn">import</span> <span class="nn">random</span>
<span class="n">random_tokens</span> <span class="o">=</span> <span class="n">random</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">vocab</span><span class="p">),</span> <span class="mi">10</span><span class="p">)</span>
<span class="n">random_ids</span> <span class="o">=</span> <span class="p">[</span><span class="n">vocab</span><span class="p">[</span><span class="n">t</span><span class="p">]</span> <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">random_tokens</span><span class="p">]</span>

<span class="nb">print</span><span class="p">(</span><span class="s2">"</span><span class="si">{0:20}{1:15}</span><span class="s2">"</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="s2">"token"</span><span class="p">,</span> <span class="s2">"index"</span><span class="p">))</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">"-"</span> <span class="o">*</span> <span class="mi">25</span><span class="p">)</span>
<span class="k">for</span> <span class="n">t</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">random_tokens</span><span class="p">,</span> <span class="n">random_ids</span><span class="p">):</span>
    <span class="nb">print</span><span class="p">(</span><span class="s2">"</span><span class="si">{0:15}{1:10}</span><span class="s2">"</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">t</span><span class="p">,</span> <span class="nb">id</span><span class="p">))</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>token               index          
-------------------------
##荘                 18834
##尉                 15259
詬                    6278
32gb                11155
荨                    5787
##狙                 17376
兹                    1074
##诈                 19457
蠣                    6112
gp                  13228
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>BERT 使用當初 <a href="https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html">Google NMT</a> 提出的 <a href="https://arxiv.org/abs/1609.08144">WordPiece Tokenization</a> ，將本來的 words 拆成更小粒度的 wordpieces，有效處理<a href="https://en.wiktionary.org/wiki/OOV">不在字典裡頭的詞彙</a> 。中文的話大致上就像是 character-level tokenization，而有 <code>##</code> 前綴的 tokens 即為 wordpieces。</p>
<p>以詞彙 <code>fragment</code> 來說，其可以被拆成 <code>frag</code> 與 <code>##ment</code> 兩個 pieces，而一個 word 也可以獨自形成一個 wordpiece。wordpieces 可以由蒐集大量文本並找出其中常見的 pattern 取得。</p>
<p>另外有趣的是ㄅㄆㄇㄈ也有被收錄：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="n">indices</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="mi">647</span><span class="p">,</span> <span class="mi">657</span><span class="p">))</span>
<span class="n">some_pairs</span> <span class="o">=</span> <span class="p">[(</span><span class="n">t</span><span class="p">,</span> <span class="n">idx</span><span class="p">)</span> <span class="k">for</span> <span class="n">t</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">vocab</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">indices</span><span class="p">]</span>
<span class="k">for</span> <span class="n">pair</span> <span class="ow">in</span> <span class="n">some_pairs</span><span class="p">:</span>
    <span class="nb">print</span><span class="p">(</span><span class="n">pair</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>('ㄅ', 647)
('ㄆ', 648)
('ㄇ', 649)
('ㄉ', 650)
('ㄋ', 651)
('ㄌ', 652)
('ㄍ', 653)
('ㄎ', 654)
('ㄏ', 655)
('ㄒ', 656)
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>讓我們利用中文 BERT 的 tokenizer 將一個中文句子斷詞看看：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="n">text</span> <span class="o">=</span> <span class="s2">"[CLS] 等到潮水 [MASK] 了，就知道誰沒穿褲子。"</span>
<span class="n">tokens</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">tokenize</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
<span class="n">ids</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">convert_tokens_to_ids</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span>

<span class="nb">print</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
<span class="nb">print</span><span class="p">(</span><span class="n">tokens</span><span class="p">[:</span><span class="mi">10</span><span class="p">],</span> <span class="s1">'...'</span><span class="p">)</span>
<span class="nb">print</span><span class="p">(</span><span class="n">ids</span><span class="p">[:</span><span class="mi">10</span><span class="p">],</span> <span class="s1">'...'</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>[CLS] 等到潮水 [MASK] 了，就知道誰沒穿褲子。
['[CLS]', '等', '到', '潮', '水', '[MASK]', '了', '，', '就', '知'] ...
[101, 5023, 1168, 4060, 3717, 103, 749, 8024, 2218, 4761] ...
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>除了一般的 wordpieces 以外，BERT 裡頭有 5 個特殊 tokens 各司其職：</p>
<ul>
<li><code>[CLS]</code>：在做分類任務時其最後一層的 repr. 會被視為整個輸入序列的 repr.</li>
<li><code>[SEP]</code>：有兩個句子的文本會被串接成一個輸入序列，並在兩句之間插入這個 token 以做區隔</li>
<li><code>[UNK]</code>：沒出現在 BERT 字典裡頭的字會被這個 token 取代</li>
<li><code>[PAD]</code>：zero padding 遮罩，將長度不一的輸入序列補齊方便做 batch 運算</li>
<li><code>[MASK]</code>：未知遮罩，僅在預訓練階段會用到</li>
</ul>
<p>如上例所示，<code>[CLS]</code> 一般會被放在輸入序列的最前面，而 zero padding 在之前的 <a href="https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html#%E7%9B%B4%E8%A7%80%E7%90%86%E8%A7%A3%E9%81%AE%E7%BD%A9%E5%9C%A8%E6%B3%A8%E6%84%8F%E5%87%BD%E5%BC%8F%E4%B8%AD%E7%9A%84%E6%95%88%E6%9E%9C">Transformer 文章裡已經有非常詳細的介紹</a>。<code>[MASK]</code> token 一般在 fine-tuning 或是 feature extraction 時不會用到，這邊只是為了展示預訓練階段的克漏字任務才使用的。</p>
<p>現在馬上讓我們看看給定上面有 <code>[MASK]</code> 的句子，BERT 會填入什麼字：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="sd">"""</span>
<span class="sd">這段程式碼載入已經訓練好的 masked 語言模型並對有 [MASK] 的句子做預測</span>
<span class="sd">"""</span>
<span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">BertForMaskedLM</span>

<span class="c1"># 除了 tokens 以外我們還需要辨別句子的 segment ids</span>
<span class="n">tokens_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="n">ids</span><span class="p">])</span>  <span class="c1"># (1, seq_len)</span>
<span class="n">segments_tensors</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">tokens_tensor</span><span class="p">)</span>  <span class="c1"># (1, seq_len)</span>
<span class="n">maskedLM_model</span> <span class="o">=</span> <span class="n">BertForMaskedLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">PRETRAINED_MODEL_NAME</span><span class="p">)</span>
<span class="n">clear_output</span><span class="p">()</span>

<span class="c1"># 使用 masked LM 估計 [MASK] 位置所代表的實際 token </span>
<span class="n">maskedLM_model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
<span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
    <span class="n">outputs</span> <span class="o">=</span> <span class="n">maskedLM_model</span><span class="p">(</span><span class="n">tokens_tensor</span><span class="p">,</span> <span class="n">segments_tensors</span><span class="p">)</span>
    <span class="n">predictions</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
    <span class="c1"># (1, seq_len, num_hidden_units)</span>
<span class="k">del</span> <span class="n">maskedLM_model</span>

<span class="c1"># 將 [MASK] 位置的機率分佈取 top k 最有可能的 tokens 出來</span>
<span class="n">masked_index</span> <span class="o">=</span> <span class="mi">5</span>
<span class="n">k</span> <span class="o">=</span> <span class="mi">3</span>
<span class="n">probs</span><span class="p">,</span> <span class="n">indices</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">topk</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">predictions</span><span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="n">masked_index</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span><span class="p">),</span> <span class="n">k</span><span class="p">)</span>
<span class="n">predicted_tokens</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">convert_ids_to_tokens</span><span class="p">(</span><span class="n">indices</span><span class="o">.</span><span class="n">tolist</span><span class="p">())</span>

<span class="c1"># 顯示 top k 可能的字。一般我們就是取 top 1 當作預測值</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">"輸入 tokens ："</span><span class="p">,</span> <span class="n">tokens</span><span class="p">[:</span><span class="mi">10</span><span class="p">],</span> <span class="s1">'...'</span><span class="p">)</span>
<span class="nb">print</span><span class="p">(</span><span class="s1">'-'</span> <span class="o">*</span> <span class="mi">50</span><span class="p">)</span>
<span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="p">(</span><span class="n">t</span><span class="p">,</span> <span class="n">p</span><span class="p">)</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="nb">zip</span><span class="p">(</span><span class="n">predicted_tokens</span><span class="p">,</span> <span class="n">probs</span><span class="p">),</span> <span class="mi">1</span><span class="p">):</span>
    <span class="n">tokens</span><span class="p">[</span><span class="n">masked_index</span><span class="p">]</span> <span class="o">=</span> <span class="n">t</span>
    <span class="nb">print</span><span class="p">(</span><span class="s2">"Top </span><span class="si">{}</span><span class="s2"> (</span><span class="si">{:2}</span><span class="s2">%)：</span><span class="si">{}</span><span class="s2">"</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">i</span><span class="p">,</span> <span class="nb">int</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="o">*</span> <span class="mi">100</span><span class="p">),</span> <span class="n">tokens</span><span class="p">[:</span><span class="mi">10</span><span class="p">]),</span> <span class="s1">'...'</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>輸入 tokens ： ['[CLS]', '等', '到', '潮', '水', '[MASK]', '了', '，', '就', '知'] ...
--------------------------------------------------
Top 1 (82%)：['[CLS]', '等', '到', '潮', '水', '來', '了', '，', '就', '知'] ...
Top 2 (11%)：['[CLS]', '等', '到', '潮', '水', '濕', '了', '，', '就', '知'] ...
Top 3 ( 2%)：['[CLS]', '等', '到', '潮', '水', '過', '了', '，', '就', '知'] ...
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Google 在訓練中文 BERT 鐵定沒看<a href="https://term.ptt.cc/">批踢踢</a>，還無法預測出我們最想要的那個 <code>退</code> 字。而最接近的 <code>過</code> 的出現機率只有 2%，但我會說以語言代表模型以及自然語言理解的角度來看這結果已經不差了。BERT 透過關注 <code>潮</code> 與 <code>水</code> 這兩個字，從 2 萬多個 wordpieces 的可能性中選出 <code>來</code> 作為這個情境下 <code>[MASK]</code> token 的預測值 ，也還算說的過去。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/bert/bert-attention.jpg" style="mix-blend-mode: initial;"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>這是 <a href="https://github.com/jessevig/bertviz">BertViz</a> 視覺化 BERT 注意力的結果，我等等會列出安裝步驟讓你自己玩玩。值得一提的是，以上是第 8 層 Encoder block 中 <a href="https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html#Multi-head-attention%EF%BC%9A%E4%BD%A0%E7%9C%8B%E4%BD%A0%E7%9A%84%EF%BC%8C%E6%88%91%E7%9C%8B%E6%88%91%E7%9A%84">Multi-head attention</a> 裡頭某一個 head 的自注意力結果。並不是每個 head 都會關注在一樣的位置。透過 multi-head 自注意力機制，BERT 可以讓不同 heads 在不同的 representation subspaces 裡學會關注不同位置的不同 repr.。</p>
<p>學會填克漏字讓 BERT 更好地 model 每個詞彙在不同語境下該有的 repr.，而 NSP 任務則能幫助 BERT model 兩個句子之間的關係，這在<a href="https://zh.wikipedia.org/wiki/%E5%95%8F%E7%AD%94%E7%B3%BB%E7%B5%B1">問答系統 QA</a>、<a href="http://nlpprogress.com/english/natural_language_inference.html">自然語言推論 NLI </a>或是後面我們會看到的<a href="#用-BERT-fine-tune-下游任務">假新聞分類任務</a>都很有幫助。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>這樣的 word repr. 就是近年十分盛行的 <a href="https://youtu.be/S-CspeZ8FHc">contextual word representation</a> 概念。跟以往沒有蘊含上下文資訊的 <a href="https://youtu.be/8rXD5-xhemo">Word2Vec、GloVe</a> 等無語境的詞嵌入向量有很大的差異。用稍微學術一點的說法就是：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<blockquote>
<p>
                        Contextual word repr. 讓同 word type 的 word token 在不同語境下有不同的表示方式；而傳統的詞向量無論上下文，都會讓同 type 的 word token 的 repr. 相同。
                        <br/>
<br/>
</p>
</blockquote>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>直覺上 contextual word representation 比較能反映人類語言的真實情況，畢竟同個詞彙的含義在不同情境下相異是再正常不過的事情。在不同語境下給同個詞彙相同的 word repr. 這件事情在近年的 NLP 領域裡頭顯得越來越不合理。</p>
<p>為了讓你加深印象，讓我再舉個具體的例子：</p>
<div class="highlight"><pre><span></span>情境 1：

胖虎叫大雄去買漫畫，回來慢了就打他。

情境 2：

妹妹說胖虎是「胖子」，他聽了很不開心。
</pre></div>
<p>很明顯地，在這兩個情境裡頭「他」所代表的語義以及指稱的對象皆不同。如果仍使用沒蘊含上下文 / 語境資訊的詞向量，機器就會很難正確地「解讀」這兩個句子所蘊含的語義了。</p>
<p>現在讓我們跟隨<a href="https://colab.research.google.com/drive/1g2nhY9vZG-PLC3w3dcHGqwsHBAXnD9EY">這個 Colab 筆記本</a>安裝 BERT 的視覺化工具 <a href="https://github.com/jessevig/bertviz">BertViz</a>，看看 BERT 會怎麼處理這兩個情境：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="c1"># 安裝 BertViz</span>
<span class="kn">import</span> <span class="nn">sys</span>
<span class="o">!</span><span class="nb">test</span><span class="w"> </span>-d<span class="w"> </span>bertviz_repo<span class="w"> </span><span class="o">||</span><span class="w"> </span>git<span class="w"> </span>clone<span class="w"> </span>https://github.com/jessevig/bertviz<span class="w"> </span>bertviz_repo
<span class="k">if</span> <span class="ow">not</span> <span class="s1">'bertviz_repo'</span> <span class="ow">in</span> <span class="n">sys</span><span class="o">.</span><span class="n">path</span><span class="p">:</span>
  <span class="n">sys</span><span class="o">.</span><span class="n">path</span> <span class="o">+=</span> <span class="p">[</span><span class="s1">'bertviz_repo'</span><span class="p">]</span>

<span class="c1"># import packages</span>
<span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">BertTokenizer</span><span class="p">,</span> <span class="n">BertModel</span>
<span class="kn">from</span> <span class="nn">bertviz</span> <span class="kn">import</span> <span class="n">head_view</span>

<span class="c1"># 在 jupyter notebook 裡頭顯示 visualzation 的 helper</span>
<span class="k">def</span> <span class="nf">call_html</span><span class="p">():</span>
  <span class="kn">import</span> <span class="nn">IPython</span>
  <span class="n">display</span><span class="p">(</span><span class="n">IPython</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">display</span><span class="o">.</span><span class="n">HTML</span><span class="p">(</span><span class="s1">'''</span>
<span class="s1">        &lt;script src="/static/components/requirejs/require.js"&gt;&lt;/script&gt;</span>
<span class="s1">        &lt;script&gt;</span>
<span class="s1">          requirejs.config({</span>
<span class="s1">            paths: {</span>
<span class="s1">              base: '/static/base',</span>
<span class="s1">              "d3": "https://cdnjs.cloudflare.com/ajax/libs/d3/3.5.8/d3.min",</span>
<span class="s1">              jquery: '//ajax.googleapis.com/ajax/libs/jquery/2.0.0/jquery.min',</span>
<span class="s1">            },</span>
<span class="s1">          });</span>
<span class="s1">        &lt;/script&gt;</span>
<span class="s1">        '''</span><span class="p">))</span>

<span class="n">clear_output</span><span class="p">()</span>
</pre></div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Setup 以後就能非常輕鬆地將 BERT 內部的注意力機制視覺化出來：</p>
<div class="highlight"><pre><span></span><span class="c1"># 記得我們是使用中文 BERT</span>
<span class="n">model_version</span> <span class="o">=</span> <span class="s1">'bert-base-chinese'</span>
<span class="n">model</span> <span class="o">=</span> <span class="n">BertModel</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_version</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
<span class="n">tokenizer</span> <span class="o">=</span> <span class="n">BertTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_version</span><span class="p">)</span>

<span class="c1"># 情境 1 的句子</span>
<span class="n">sentence_a</span> <span class="o">=</span> <span class="s2">"胖虎叫大雄去買漫畫，"</span>
<span class="n">sentence_b</span> <span class="o">=</span> <span class="s2">"回來慢了就打他。"</span>

<span class="c1"># 得到 tokens 後丟入 BERT 取得 attention</span>
<span class="n">inputs</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_plus</span><span class="p">(</span><span class="n">sentence_a</span><span class="p">,</span> <span class="n">sentence_b</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s1">'pt'</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
<span class="n">token_type_ids</span> <span class="o">=</span> <span class="n">inputs</span><span class="p">[</span><span class="s1">'token_type_ids'</span><span class="p">]</span>
<span class="n">input_ids</span> <span class="o">=</span> <span class="n">inputs</span><span class="p">[</span><span class="s1">'input_ids'</span><span class="p">]</span>
<span class="n">attention</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">token_type_ids</span><span class="o">=</span><span class="n">token_type_ids</span><span class="p">)[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
<span class="n">input_id_list</span> <span class="o">=</span> <span class="n">input_ids</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="c1"># Batch index 0</span>
<span class="n">tokens</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">convert_ids_to_tokens</span><span class="p">(</span><span class="n">input_id_list</span><span class="p">)</span>
<span class="n">call_html</span><span class="p">()</span>

<span class="c1"># 交給 BertViz 視覺化</span>
<span class="n">head_view</span><span class="p">(</span><span class="n">attention</span><span class="p">,</span> <span class="n">tokens</span><span class="p">)</span>

<span class="c1"># 注意：執行這段程式碼以後只會顯示下圖左側的結果。</span>
<span class="c1"># 為了方便你比較，我把情境 2 的結果也同時附上</span>
</pre></div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/bert/bert-coreference.jpg" style="mix-blend-mode: initial;"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>這是 BERT 裡第 9 層 Encoder block 其中一個 head 的注意力結果。</p>
<p>圖中的線條代表該 head 在更新「他」（左側）的 repr. 時關注其他詞彙（右側）的注意力程度。越粗代表關注權重（attention weights）越高。很明顯地這個 head 具有一定的<a href="https://youtu.be/i19m4GzBhfc">指代消解（Coreference Resolution）</a>能力，能正確地關注「他」所指代的對象。</p>
<p>要處理指代消解需要對自然語言有不少理解，而 BERT 在沒有標注數據的情況下透過自注意力機制、深度雙向語言模型以及「閱讀」大量文本達到這樣的水準，是一件令人雀躍的事情。</p>
<p>當然 BERT 並不是第一個嘗試產生 contextual word repr. 的語言模型。在它之前最知名的例子有剛剛提到的 <a href="https://allennlp.org/elmo">ELMo</a> 以及 <a href="https://github.com/openai/gpt-2">GPT</a>：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/bert_elmo_gpt.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        ELMo、GPT 以及 BERT 都透過訓練語言模型來獲得 contextual word representation
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>ELMo 利用獨立訓練的雙向兩層 LSTM  做語言模型並將中間得到的隱狀態向量串接當作每個詞彙的 contextual word repr.；GPT 則是使用 Transformer 的 Decoder 來訓練一個中規中矩，從左到右的<strong>單向</strong>語言模型。你可以參考我另一篇文章：<a href="https://leemeng.tw/gpt2-language-model-generate-chinese-jing-yong-novels.html">直觀理解 GPT-2 語言模型並生成金庸武俠小說</a>來深入了解 GPT 與 GPT-2。</p>
<p>BERT 跟它們的差異在於利用 MLM（即克漏字）的概念及 Transformer Encoder 的架構，擺脫以往語言模型只能從單個方向（由左到右或由右到左）估計下個詞彙出現機率的窘境，訓練出一個<strong>雙向</strong>的語言代表模型。這使得 BERT 輸出的每個 token 的 repr. <code>Tn</code> 都同時蘊含了前後文資訊，真正的<strong>雙向</strong> representation。</p>
<p>跟以往模型相比，BERT 能更好地處理自然語言，在著名的問答任務 <a href="https://rajpurkar.github.io/SQuAD-explorer/">SQuAD2.0</a> 也有卓越表現：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/squad2.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        SQuAD 2.0 目前排行榜的前 5 名有 4 個有使用 BERT
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>我想我又犯了解說癖，這些東西你可能在看這篇文章之前就全懂了。但希望這些對 BERT 的 high level 介紹能幫助更多人直覺地理解 BERT 的強大之處以及為何值得學習它。</p>
<p>假如你仍然似懂非懂，只需記得：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<blockquote>
<p>
                        BERT 是一個強大的語言代表模型，給它一段文本序列，它能回傳一段相同長度且蘊含上下文資訊的 word repr. 序列，對下游的 NLP 任務很有幫助。
                        <br/>
<br/>
</p>
</blockquote>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>有了這樣的概念以後，我們接下來要做的事情很簡單，就是將自己感興趣的 NLP 任務的文本丟入 BERT ，為文本裡頭的每個 token 取得有語境的 word repr.，並以此 repr. 進一步 fine tune 當前任務，取得更好的結果。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h2 id="用-BERT-fine-tune-下游任務">用 BERT fine tune 下游任務<a class="anchor-link" href="#用-BERT-fine-tune-下游任務">&para;</a></h2>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>我們在<a href="https://leemeng.tw/shortest-path-to-the-nlp-world-a-gentle-guide-of-natural-language-processing-and-deep-learning-for-everyone.html">給所有人的 NLP 入門指南</a>碰過的<a href="https://www.kaggle.com/c/fake-news-pair-classification-challenge/submissions">假新聞分類任務</a>將會是本文拿 BERT 來做 fine-tuning 的例子。選擇這個任務的最主要理由是因為中文數據容易理解，另外網路上針對兩個句子做分類的例子也較少。</p>
<p>就算你對假新聞分類沒興趣也建議繼續閱讀。因為本節談到的所有概念完全可以被套用到其他語言的文本以及不同的 NLP 任務之上。因此我希望接下來你能一邊閱讀一邊想像如何用同樣的方式把 BERT 拿來處理你自己感興趣的 NLP 任務。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/nlp-kaggle-intro/view-data-on-kaggle.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        給定假新聞 title1，判斷另一新聞 title2 跟 title1 的關係（同意、反對或無關）
                        （<a href="https://leemeng.tw/shortest-path-to-the-nlp-world-a-gentle-guide-of-natural-language-processing-and-deep-learning-for-everyone.html" target="_blank">圖片來源</a>）
                        
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>fine tune BERT 來解決新的下游任務有 5 個簡單步驟：</p>
<ol>
<li><a href="#1.-準備原始文本數據">準備原始文本數據</a></li>
<li><a href="#2.-將原始文本轉換成-BERT-相容的輸入格式">將原始文本轉換成 BERT 相容的輸入格式</a></li>
<li><a href="#3.-在-BERT-之上加入新-layer-成下游任務模型">在 BERT 之上加入新 layer 成下游任務模型</a></li>
<li><a href="#4.-訓練該下游任務模型">訓練該下游任務模型</a></li>
<li><a href="#5.-對新樣本做推論">對新樣本做推論</a></li>
</ol>
<p>對，就是那麼直覺。而且你應該已經看出步驟 1、4 及 5 都跟訓練一般模型所需的步驟無太大差異。跟 BERT 最相關的細節事實上是步驟 2 跟 3：</p>
<ul>
<li>如何將原始數據轉換成 <strong>BERT 相容</strong>的輸入格式？</li>
<li>如何在 BERT 之上建立 layer(s) 以符合下游任務需求？</li>
</ul>
<p>事不宜遲，讓我們馬上以假新聞分類任務為例回答這些問題。<a href="https://leemeng.tw/shortest-path-to-the-nlp-world-a-gentle-guide-of-natural-language-processing-and-deep-learning-for-everyone.html">我在之前的文章已經說明過</a>，這個任務的輸入是兩個句子，輸出是 3 個類別機率的多類別分類任務（multi-class classification task），跟 NLP 領域裡常見的<a href="https://paperswithcode.com/task/natural-language-inference/latest">自然語言推論（Natural Language Inference）</a>具有相同性質。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="1.-準備原始文本數據">1. 準備原始文本數據<a class="anchor-link" href="#1.-準備原始文本數據">&para;</a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>為了最大化再現性（reproducibility）以及幫助有興趣的讀者深入研究，我會列出所有的程式碼，你只要複製貼上就能完整重現文中所有結果並生成能提交到 Kaggle 競賽的預測檔案。你當然也可以選擇直接閱讀，不一定要下載數據。</p>
<p>因為 Kaggle 網站本身的限制，我無法直接提供數據載點。如果你想要跟著本文練習以 BERT fine tune 一個假新聞的分類模型，可以先<a href="https://www.kaggle.com/c/fake-news-pair-classification-challenge/data">前往該 Kaggle 競賽下載資料集</a>。下載完數據你的資料夾裡應該會有兩個壓縮檔，分別代表訓練集和測試集：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="kn">import</span> <span class="nn">glob</span>
<span class="n">glob</span><span class="o">.</span><span class="n">glob</span><span class="p">(</span><span class="s2">"*.csv.zip"</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_text output_subarea output_execute_result">
<pre>['train.csv.zip', 'test.csv.zip']</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>接著就是我實際處理訓練資料集的程式碼。再次申明，你只需稍微瀏覽註解並感受一下處理邏輯即可，no pressure。</p>
<p>因為競賽早就結束，我們不必花費時間衝高分數。比起衝高準確度，讓我們做點有趣的事情：從 32 萬筆訓練數據裡頭隨機抽樣 1 % 來讓 BERT 學怎麼分類假新聞。</p>
<p>我們可以看看 BERT 本身的語言理解能力對只有少量標註數據的任務有什麼幫助：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<div class="highlight"><pre><span></span><span class="sd">"""</span>
<span class="sd">前處理原始的訓練數據集。</span>
<span class="sd">你不需了解細節，只需要看註解了解邏輯或是輸出的數據格式即可</span>
<span class="sd">"""</span>
<span class="kn">import</span> <span class="nn">os</span>
<span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>

<span class="c1"># 解壓縮從 Kaggle 競賽下載的訓練壓縮檔案</span>
<span class="n">os</span><span class="o">.</span><span class="n">system</span><span class="p">(</span><span class="s2">"unzip train.csv.zip"</span><span class="p">)</span>

<span class="c1"># 簡單的數據清理，去除空白標題的 examples</span>
<span class="n">df_train</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="s2">"train.csv"</span><span class="p">)</span>
<span class="n">empty_title</span> <span class="o">=</span> <span class="p">((</span><span class="n">df_train</span><span class="p">[</span><span class="s1">'title2_zh'</span><span class="p">]</span><span class="o">.</span><span class="n">isnull</span><span class="p">())</span> \
               <span class="o">|</span> <span class="p">(</span><span class="n">df_train</span><span class="p">[</span><span class="s1">'title1_zh'</span><span class="p">]</span><span class="o">.</span><span class="n">isnull</span><span class="p">())</span> \
               <span class="o">|</span> <span class="p">(</span><span class="n">df_train</span><span class="p">[</span><span class="s1">'title2_zh'</span><span class="p">]</span> <span class="o">==</span> <span class="s1">''</span><span class="p">)</span> \
               <span class="o">|</span> <span class="p">(</span><span class="n">df_train</span><span class="p">[</span><span class="s1">'title2_zh'</span><span class="p">]</span> <span class="o">==</span> <span class="s1">'0'</span><span class="p">))</span>
<span class="n">df_train</span> <span class="o">=</span> <span class="n">df_train</span><span class="p">[</span><span class="o">~</span><span class="n">empty_title</span><span class="p">]</span>

<span class="c1"># 剔除過長的樣本以避免 BERT 無法將整個輸入序列放入記憶體不多的 GPU</span>
<span class="n">MAX_LENGTH</span> <span class="o">=</span> <span class="mi">30</span>
<span class="n">df_train</span> <span class="o">=</span> <span class="n">df_train</span><span class="p">[</span><span class="o">~</span><span class="p">(</span><span class="n">df_train</span><span class="o">.</span><span class="n">title1_zh</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span> <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">&gt;</span> <span class="n">MAX_LENGTH</span><span class="p">)]</span>
<span class="n">df_train</span> <span class="o">=</span> <span class="n">df_train</span><span class="p">[</span><span class="o">~</span><span class="p">(</span><span class="n">df_train</span><span class="o">.</span><span class="n">title2_zh</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span> <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">&gt;</span> <span class="n">MAX_LENGTH</span><span class="p">)]</span>

<span class="c1"># 只用 1% 訓練數據看看 BERT 對少量標註數據有多少幫助</span>
<span class="n">SAMPLE_FRAC</span> <span class="o">=</span> <span class="mf">0.01</span>
<span class="n">df_train</span> <span class="o">=</span> <span class="n">df_train</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="n">frac</span><span class="o">=</span><span class="n">SAMPLE_FRAC</span><span class="p">,</span> <span class="n">random_state</span><span class="o">=</span><span class="mi">9527</span><span class="p">)</span>

<span class="c1"># 去除不必要的欄位並重新命名兩標題的欄位名</span>
<span class="n">df_train</span> <span class="o">=</span> <span class="n">df_train</span><span class="o">.</span><span class="n">reset_index</span><span class="p">()</span>
<span class="n">df_train</span> <span class="o">=</span> <span class="n">df_train</span><span class="o">.</span><span class="n">loc</span><span class="p">[:,</span> <span class="p">[</span><span class="s1">'title1_zh'</span><span class="p">,</span> <span class="s1">'title2_zh'</span><span class="p">,</span> <span class="s1">'label'</span><span class="p">]]</span>
<span class="n">df_train</span><span class="o">.</span><span class="n">columns</span> <span class="o">=</span> <span class="p">[</span><span class="s1">'text_a'</span><span class="p">,</span> <span class="s1">'text_b'</span><span class="p">,</span> <span class="s1">'label'</span><span class="p">]</span>

<span class="c1"># idempotence, 將處理結果另存成 tsv 供 PyTorch 使用</span>
<span class="n">df_train</span><span class="o">.</span><span class="n">to_csv</span><span class="p">(</span><span class="s2">"train.tsv"</span><span class="p">,</span> <span class="n">sep</span><span class="o">=</span><span class="s2">"</span><span class="se">\t</span><span class="s2">"</span><span class="p">,</span> <span class="n">index</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>

<span class="nb">print</span><span class="p">(</span><span class="s2">"訓練樣本數："</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">df_train</span><span class="p">))</span>
<span class="n">df_train</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
</pre></div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/bert/df_train.jpg" style="mix-blend-mode: initial;"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>事情變得更有趣了。因為我們在抽樣 1 % 的數據後還將過長的樣本去除，實際上會被拿來訓練的樣本數只有 2,657 筆，佔不到參賽時可以用的訓練數據的 1 %，是非常少量的數據。</p>
<p>我們也可以看到 <code>unrelated</code> 的樣本佔了 68 %，因此我們用 BERT 訓練出來的分類器最少最少要超過多數決的 68 % baseline 才行：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="n">df_train</span><span class="o">.</span><span class="n">label</span><span class="o">.</span><span class="n">value_counts</span><span class="p">()</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">df_train</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_text output_subarea output_execute_result">
<pre>unrelated    0.679338
agreed       0.294317
disagreed    0.026346
Name: label, dtype: float64</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>接著我也對最後要預測的測試集做些非常基本的前處理，方便之後提交符合競賽要求的格式。你也不需了解所有細節，只要知道我們最後要預測 8 萬筆樣本：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<div class="highlight"><pre><span></span><span class="n">os</span><span class="o">.</span><span class="n">system</span><span class="p">(</span><span class="s2">"unzip test.csv.zip"</span><span class="p">)</span>
<span class="n">df_test</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="s2">"test.csv"</span><span class="p">)</span>
<span class="n">df_test</span> <span class="o">=</span> <span class="n">df_test</span><span class="o">.</span><span class="n">loc</span><span class="p">[:,</span> <span class="p">[</span><span class="s2">"title1_zh"</span><span class="p">,</span> <span class="s2">"title2_zh"</span><span class="p">,</span> <span class="s2">"id"</span><span class="p">]]</span>
<span class="n">df_test</span><span class="o">.</span><span class="n">columns</span> <span class="o">=</span> <span class="p">[</span><span class="s2">"text_a"</span><span class="p">,</span> <span class="s2">"text_b"</span><span class="p">,</span> <span class="s2">"Id"</span><span class="p">]</span>
<span class="n">df_test</span><span class="o">.</span><span class="n">to_csv</span><span class="p">(</span><span class="s2">"test.tsv"</span><span class="p">,</span> <span class="n">sep</span><span class="o">=</span><span class="s2">"</span><span class="se">\t</span><span class="s2">"</span><span class="p">,</span> <span class="n">index</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>

<span class="nb">print</span><span class="p">(</span><span class="s2">"預測樣本數："</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">df_test</span><span class="p">))</span>
<span class="n">df_test</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
</pre></div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/bert/df_test.jpg" style="mix-blend-mode: initial;"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="n">ratio</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">df_test</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">df_train</span><span class="p">)</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">"測試集樣本數 / 訓練集樣本數 = </span><span class="si">{:.1f}</span><span class="s2"> 倍"</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">ratio</span><span class="p">))</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>測試集樣本數 / 訓練集樣本數 = 30.2 倍
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>因為測試集的樣本數是我們迷你訓練集的 30 倍之多，後面你會看到反而是推論需要花費比較久的時間，模型本身一下就訓練完了。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="2.-將原始文本轉換成-BERT-相容的輸入格式">2. 將原始文本轉換成 BERT 相容的輸入格式<a class="anchor-link" href="#2.-將原始文本轉換成-BERT-相容的輸入格式">&para;</a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>處理完原始數據以後，最關鍵的就是了解如何讓 BERT 讀取這些數據以做訓練和推論。這時候我們需要了解 BERT 的輸入編碼格式。</p>
<p>這步驟是本文的精華所在，你將看到在其他只單純說明 BERT 概念的文章不會提及的所有實務細節。以下是<a href="https://arxiv.org/pdf/1810.04805.pdf">原論文</a>裡頭展示的成對句子編碼示意圖：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/practical_bert_encoding_for_pytorch.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        加入 PyTorch 使用細節的 BERT 成對句子編碼示意圖
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>第二條分隔線<strong>之上</strong>的內容是論文裡展示的例子。圖中的每個 Token Embedding 都對應到前面提過的一個 wordpiece，而 Segment Embeddings 則代表不同句子的位置，是學出來的。Positional Embeddings 則跟其他 Transformer 架構中出現的位置編碼同出一轍。</p>
<p>實際運用 PyTorch 的 BERT 時最重要的則是在第二條分隔線<strong>之下</strong>的資訊。我們需要將原始文本轉換成  <strong>3 種 id tensors</strong>：</p>
<ul>
<li><code>tokens_tensor</code>：代表識別每個 token 的索引值，用 tokenizer 轉換即可</li>
<li><code>segments_tensor</code>：用來識別句子界限。第一句為 0，第二句則為 1。另外注意句子間的 <code>[SEP]</code> 為 0</li>
<li><code>masks_tensor</code>：用來界定自注意力機制範圍。1 讓 BERT 關注該位置，0 則代表是 padding 不需關注</li>
</ul>
<p>論文裡的例子並沒有說明 <code>[PAD]</code> token，但實務上每個 batch 裡頭的輸入序列長短不一，為了讓 GPU 平行運算我們需要將 batch 裡的每個輸入序列都補上 zero padding 以保證它們長度一致。另外 <code>masks_tensor</code> 以及 <code>segments_tensor</code> 在 <code>[PAD]</code> 對應位置的值也都是 0，切記切記。</p>
<p>有了這些背景知識以後，要實作一個 <code>Dataset</code> 並將原始文本轉換成 BERT 相容的格式就變得十分容易了：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="sd">"""</span>
<span class="sd">實作一個可以用來讀取訓練 / 測試集的 Dataset，這是你需要徹底了解的部分。</span>
<span class="sd">此 Dataset 每次將 tsv 裡的一筆成對句子轉換成 BERT 相容的格式，並回傳 3 個 tensors：</span>
<span class="sd">- tokens_tensor：兩個句子合併後的索引序列，包含 [CLS] 與 [SEP]</span>
<span class="sd">- segments_tensor：可以用來識別兩個句子界限的 binary tensor</span>
<span class="sd">- label_tensor：將分類標籤轉換成類別索引的 tensor, 如果是測試集則回傳 None</span>
<span class="sd">"""</span>
<span class="kn">from</span> <span class="nn">torch.utils.data</span> <span class="kn">import</span> <span class="n">Dataset</span>
 
    
<span class="k">class</span> <span class="nc">FakeNewsDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">):</span>
    <span class="c1"># 讀取前處理後的 tsv 檔並初始化一些參數</span>
    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">mode</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">):</span>
        <span class="k">assert</span> <span class="n">mode</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">"train"</span><span class="p">,</span> <span class="s2">"test"</span><span class="p">]</span>  <span class="c1"># 一般訓練你會需要 dev set</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">mode</span> <span class="o">=</span> <span class="n">mode</span>
        <span class="c1"># 大數據你會需要用 iterator=True</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="n">mode</span> <span class="o">+</span> <span class="s2">".tsv"</span><span class="p">,</span> <span class="n">sep</span><span class="o">=</span><span class="s2">"</span><span class="se">\t</span><span class="s2">"</span><span class="p">)</span><span class="o">.</span><span class="n">fillna</span><span class="p">(</span><span class="s2">""</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">len</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">df</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">label_map</span> <span class="o">=</span> <span class="p">{</span><span class="s1">'agreed'</span><span class="p">:</span> <span class="mi">0</span><span class="p">,</span> <span class="s1">'disagreed'</span><span class="p">:</span> <span class="mi">1</span><span class="p">,</span> <span class="s1">'unrelated'</span><span class="p">:</span> <span class="mi">2</span><span class="p">}</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>  <span class="c1"># 我們將使用 BERT tokenizer</span>
    
    <span class="c1"># 定義回傳一筆訓練 / 測試數據的函式</span>
    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">idx</span><span class="p">):</span>
        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">"test"</span><span class="p">:</span>
            <span class="n">text_a</span><span class="p">,</span> <span class="n">text_b</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">df</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="n">idx</span><span class="p">,</span> <span class="p">:</span><span class="mi">2</span><span class="p">]</span><span class="o">.</span><span class="n">values</span>
            <span class="n">label_tensor</span> <span class="o">=</span> <span class="kc">None</span>
        <span class="k">else</span><span class="p">:</span>
            <span class="n">text_a</span><span class="p">,</span> <span class="n">text_b</span><span class="p">,</span> <span class="n">label</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">df</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="n">idx</span><span class="p">,</span> <span class="p">:]</span><span class="o">.</span><span class="n">values</span>
            <span class="c1"># 將 label 文字也轉換成索引方便轉換成 tensor</span>
            <span class="n">label_id</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">label_map</span><span class="p">[</span><span class="n">label</span><span class="p">]</span>
            <span class="n">label_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">label_id</span><span class="p">)</span>
            
        <span class="c1"># 建立第一個句子的 BERT tokens 並加入分隔符號 [SEP]</span>
        <span class="n">word_pieces</span> <span class="o">=</span> <span class="p">[</span><span class="s2">"[CLS]"</span><span class="p">]</span>
        <span class="n">tokens_a</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">tokenize</span><span class="p">(</span><span class="n">text_a</span><span class="p">)</span>
        <span class="n">word_pieces</span> <span class="o">+=</span> <span class="n">tokens_a</span> <span class="o">+</span> <span class="p">[</span><span class="s2">"[SEP]"</span><span class="p">]</span>
        <span class="n">len_a</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">word_pieces</span><span class="p">)</span>
        
        <span class="c1"># 第二個句子的 BERT tokens</span>
        <span class="n">tokens_b</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">tokenize</span><span class="p">(</span><span class="n">text_b</span><span class="p">)</span>
        <span class="n">word_pieces</span> <span class="o">+=</span> <span class="n">tokens_b</span> <span class="o">+</span> <span class="p">[</span><span class="s2">"[SEP]"</span><span class="p">]</span>
        <span class="n">len_b</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">word_pieces</span><span class="p">)</span> <span class="o">-</span> <span class="n">len_a</span>
        
        <span class="c1"># 將整個 token 序列轉換成索引序列</span>
        <span class="n">ids</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">convert_tokens_to_ids</span><span class="p">(</span><span class="n">word_pieces</span><span class="p">)</span>
        <span class="n">tokens_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
        
        <span class="c1"># 將第一句包含 [SEP] 的 token 位置設為 0，其他為 1 表示第二句</span>
        <span class="n">segments_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">len_a</span> <span class="o">+</span> <span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">*</span> <span class="n">len_b</span><span class="p">,</span> 
                                        <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">long</span><span class="p">)</span>
        
        <span class="k">return</span> <span class="p">(</span><span class="n">tokens_tensor</span><span class="p">,</span> <span class="n">segments_tensor</span><span class="p">,</span> <span class="n">label_tensor</span><span class="p">)</span>
    
    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">len</span>
    
    
<span class="c1"># 初始化一個專門讀取訓練樣本的 Dataset，使用中文 BERT 斷詞</span>
<span class="n">trainset</span> <span class="o">=</span> <span class="n">FakeNewsDataset</span><span class="p">(</span><span class="s2">"train"</span><span class="p">,</span> <span class="n">tokenizer</span><span class="o">=</span><span class="n">tokenizer</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>這段程式碼不難，我也很想硬掰些台詞撐撐場面，但該說的重點都寫成註解給你看了。如果你想要把自己手上的文本轉換成 BERT 看得懂的東西，那徹底理解這個 <code>Dataset</code> 的實作邏輯就非常重要了。</p>
<p>現在讓我們看看第一個訓練樣本轉換前後的格式差異：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="c1"># 選擇第一個樣本</span>
<span class="n">sample_idx</span> <span class="o">=</span> <span class="mi">0</span>

<span class="c1"># 將原始文本拿出做比較</span>
<span class="n">text_a</span><span class="p">,</span> <span class="n">text_b</span><span class="p">,</span> <span class="n">label</span> <span class="o">=</span> <span class="n">trainset</span><span class="o">.</span><span class="n">df</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="n">sample_idx</span><span class="p">]</span><span class="o">.</span><span class="n">values</span>

<span class="c1"># 利用剛剛建立的 Dataset 取出轉換後的 id tensors</span>
<span class="n">tokens_tensor</span><span class="p">,</span> <span class="n">segments_tensor</span><span class="p">,</span> <span class="n">label_tensor</span> <span class="o">=</span> <span class="n">trainset</span><span class="p">[</span><span class="n">sample_idx</span><span class="p">]</span>

<span class="c1"># 將 tokens_tensor 還原成文本</span>
<span class="n">tokens</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">convert_ids_to_tokens</span><span class="p">(</span><span class="n">tokens_tensor</span><span class="o">.</span><span class="n">tolist</span><span class="p">())</span>
<span class="n">combined_text</span> <span class="o">=</span> <span class="s2">""</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span>

<span class="c1"># 渲染前後差異，毫無反應就是個 print。可以直接看輸出結果</span>
<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">"""[原始文本]</span>
<span class="s2">句子 1：</span><span class="si">{</span><span class="n">text_a</span><span class="si">}</span>
<span class="s2">句子 2：</span><span class="si">{</span><span class="n">text_b</span><span class="si">}</span>
<span class="s2">分類  ：</span><span class="si">{</span><span class="n">label</span><span class="si">}</span>

<span class="s2">--------------------</span>

<span class="s2">[Dataset 回傳的 tensors]</span>
<span class="s2">tokens_tensor  ：</span><span class="si">{</span><span class="n">tokens_tensor</span><span class="si">}</span>

<span class="s2">segments_tensor：</span><span class="si">{</span><span class="n">segments_tensor</span><span class="si">}</span>

<span class="s2">label_tensor   ：</span><span class="si">{</span><span class="n">label_tensor</span><span class="si">}</span>

<span class="s2">--------------------</span>

<span class="s2">[還原 tokens_tensors]</span>
<span class="si">{</span><span class="n">combined_text</span><span class="si">}</span>
<span class="s2">"""</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>[原始文本]
句子 1：苏有朋要结婚了，但网友觉得他还是和林心如比较合适
句子 2：好闺蜜结婚给不婚族的秦岚扔花球，倒霉的秦岚掉水里笑哭苏有朋！
分類  ：unrelated

--------------------

[Dataset 回傳的 tensors]
tokens_tensor  ：tensor([ 101, 5722, 3300, 3301, 6206, 5310, 2042,  749, 8024,  852, 5381, 1351,
        6230, 2533,  800, 6820, 3221, 1469, 3360, 2552, 1963, 3683, 6772, 1394,
        6844,  102, 1962, 7318, 6057, 5310, 2042, 5314,  679, 2042, 3184, 4638,
        4912, 2269, 2803, 5709, 4413, 8024,  948, 7450, 4638, 4912, 2269, 2957,
        3717, 7027, 5010, 1526, 5722, 3300, 3301, 8013,  102])

segments_tensor：tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1])

label_tensor   ：2

--------------------

[還原 tokens_tensors]
[CLS]苏有朋要结婚了，但网友觉得他还是和林心如比较合适[SEP]好闺蜜结婚给不婚族的秦岚扔花球，倒霉的秦岚掉水里笑哭苏有朋！[SEP]

</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>好啦，我很雞婆地幫你把處理前後的差異都列了出來，你現在應該了解我們定義的 <code>trainset</code> 回傳的 tensors 跟原始文本之間的關係了吧！如果你之後想要一行行解析上面我定義的這個 <code>Dataset</code>，強烈建議安裝在 Github 上已經得到超過 1 萬星的 <a href="https://github.com/cool-RR/PySnooper">PySnooper</a>：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<div class="highlight"><pre><span></span><span class="err">!</span><span class="n">pip</span> <span class="n">install</span> <span class="n">pysnooper</span> <span class="o">-</span><span class="n">q</span>
<span class="kn">import</span> <span class="nn">pysnooper</span>

<span class="k">class</span> <span class="nc">FakeNewsDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">):</span>
        <span class="o">...</span>
    <span class="nd">@pysnooper</span><span class="o">.</span><span class="n">snoop</span><span class="p">()</span>  <span class="c1"># 加入以了解所有轉換過程</span>
    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">idx</span><span class="p">):</span>
        <span class="o">...</span>
</pre></div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>加上 <code>@pysnooper.snoop()</code>、重新定義 <code>FakeNewsDataset</code>、初始化一個新的 <code>trainset</code> 並將第一個樣本取出即可看到這樣的 logging 訊息：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/debug_with_pysnooper.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        使用 PySnooper 讓你輕鬆了解怎麼將原始文本變得「 BERT 相容」
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>有了 <code>Dataset</code> 以後，我們還需要一個 <code>DataLoader</code> 來回傳成一個個的 mini-batch。畢竟我們不可能一次把整個數據集塞入 GPU，對吧？</p>
<p>痾 ... 你剛剛應該沒有打算這麼做吧？</p>
<p>除了上面的 <code>FakeNewsDataset</code> 實作以外，以下的程式碼是你在想將 BERT 應用到自己的 NLP 任務時會需要徹底搞懂的部分：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="sd">"""</span>
<span class="sd">實作可以一次回傳一個 mini-batch 的 DataLoader</span>
<span class="sd">這個 DataLoader 吃我們上面定義的 `FakeNewsDataset`，</span>
<span class="sd">回傳訓練 BERT 時會需要的 4 個 tensors：</span>
<span class="sd">- tokens_tensors  : (batch_size, max_seq_len_in_batch)</span>
<span class="sd">- segments_tensors: (batch_size, max_seq_len_in_batch)</span>
<span class="sd">- masks_tensors   : (batch_size, max_seq_len_in_batch)</span>
<span class="sd">- label_ids       : (batch_size)</span>
<span class="sd">"""</span>

<span class="kn">from</span> <span class="nn">torch.utils.data</span> <span class="kn">import</span> <span class="n">DataLoader</span>
<span class="kn">from</span> <span class="nn">torch.nn.utils.rnn</span> <span class="kn">import</span> <span class="n">pad_sequence</span>

<span class="c1"># 這個函式的輸入 `samples` 是一個 list，裡頭的每個 element 都是</span>
<span class="c1"># 剛剛定義的 `FakeNewsDataset` 回傳的一個樣本，每個樣本都包含 3 tensors：</span>
<span class="c1"># - tokens_tensor</span>
<span class="c1"># - segments_tensor</span>
<span class="c1"># - label_tensor</span>
<span class="c1"># 它會對前兩個 tensors 作 zero padding，並產生前面說明過的 masks_tensors</span>
<span class="k">def</span> <span class="nf">create_mini_batch</span><span class="p">(</span><span class="n">samples</span><span class="p">):</span>
    <span class="n">tokens_tensors</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">]</span>
    <span class="n">segments_tensors</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">]</span>
    
    <span class="c1"># 測試集有 labels</span>
    <span class="k">if</span> <span class="n">samples</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="mi">2</span><span class="p">]</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
        <span class="n">label_ids</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">([</span><span class="n">s</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">])</span>
    <span class="k">else</span><span class="p">:</span>
        <span class="n">label_ids</span> <span class="o">=</span> <span class="kc">None</span>
    
    <span class="c1"># zero pad 到同一序列長度</span>
    <span class="n">tokens_tensors</span> <span class="o">=</span> <span class="n">pad_sequence</span><span class="p">(</span><span class="n">tokens_tensors</span><span class="p">,</span> 
                                  <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
    <span class="n">segments_tensors</span> <span class="o">=</span> <span class="n">pad_sequence</span><span class="p">(</span><span class="n">segments_tensors</span><span class="p">,</span> 
                                    <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
    
    <span class="c1"># attention masks，將 tokens_tensors 裡頭不為 zero padding</span>
    <span class="c1"># 的位置設為 1 讓 BERT 只關注這些位置的 tokens</span>
    <span class="n">masks_tensors</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">tokens_tensors</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> 
                                <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">long</span><span class="p">)</span>
    <span class="n">masks_tensors</span> <span class="o">=</span> <span class="n">masks_tensors</span><span class="o">.</span><span class="n">masked_fill</span><span class="p">(</span>
        <span class="n">tokens_tensors</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
    
    <span class="k">return</span> <span class="n">tokens_tensors</span><span class="p">,</span> <span class="n">segments_tensors</span><span class="p">,</span> <span class="n">masks_tensors</span><span class="p">,</span> <span class="n">label_ids</span>


<span class="c1"># 初始化一個每次回傳 64 個訓練樣本的 DataLoader</span>
<span class="c1"># 利用 `collate_fn` 將 list of samples 合併成一個 mini-batch 是關鍵</span>
<span class="n">BATCH_SIZE</span> <span class="o">=</span> <span class="mi">64</span>
<span class="n">trainloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">trainset</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="n">BATCH_SIZE</span><span class="p">,</span> 
                         <span class="n">collate_fn</span><span class="o">=</span><span class="n">create_mini_batch</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>加上註解，我相信這應該是你在整個網路上能看到最平易近人的實作了。這段程式碼是你要實際將 mini-batch 丟入 BERT 做訓練以及預測的關鍵，務必搞清楚每一行在做些什麼。</p>
<p>有了可以回傳 mini-batch 的 <code>DataLoader</code> 後，讓我們馬上拿出一個 batch 看看：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="n">data</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="nb">iter</span><span class="p">(</span><span class="n">trainloader</span><span class="p">))</span>

<span class="n">tokens_tensors</span><span class="p">,</span> <span class="n">segments_tensors</span><span class="p">,</span> \
    <span class="n">masks_tensors</span><span class="p">,</span> <span class="n">label_ids</span> <span class="o">=</span> <span class="n">data</span>

<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">"""</span>
<span class="s2">tokens_tensors.shape   = </span><span class="si">{</span><span class="n">tokens_tensors</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s2"> </span>
<span class="si">{</span><span class="n">tokens_tensors</span><span class="si">}</span>
<span class="s2">------------------------</span>
<span class="s2">segments_tensors.shape = </span><span class="si">{</span><span class="n">segments_tensors</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span>
<span class="si">{</span><span class="n">segments_tensors</span><span class="si">}</span>
<span class="s2">------------------------</span>
<span class="s2">masks_tensors.shape    = </span><span class="si">{</span><span class="n">masks_tensors</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span>
<span class="si">{</span><span class="n">masks_tensors</span><span class="si">}</span>
<span class="s2">------------------------</span>
<span class="s2">label_ids.shape        = </span><span class="si">{</span><span class="n">label_ids</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span>
<span class="si">{</span><span class="n">label_ids</span><span class="si">}</span>
<span class="s2">"""</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>
tokens_tensors.shape   = torch.Size([64, 63]) 
tensor([[ 101, 5722, 3300,  ...,    0,    0,    0],
        [ 101, 4255, 3160,  ..., 8013,  102,    0],
        [ 101,  711, 2506,  ..., 8013,  102,    0],
        ...,
        [ 101,  671, 2157,  ...,    0,    0,    0],
        [ 101, 1380,  677,  ...,    0,    0,    0],
        [ 101, 2458, 1853,  ...,    0,    0,    0]])
------------------------
segments_tensors.shape = torch.Size([64, 63])
tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 1, 1, 0],
        [0, 0, 0,  ..., 1, 1, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]])
------------------------
masks_tensors.shape    = torch.Size([64, 63])
tensor([[1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 0],
        [1, 1, 1,  ..., 1, 1, 0],
        ...,
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0]])
------------------------
label_ids.shape        = torch.Size([64])
tensor([2, 0, 2, 2, 1, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 2,
        2, 2, 2, 2, 0, 2, 2, 2, 2, 1, 2, 0, 2, 0, 2, 2, 2, 2, 2, 0, 2, 2, 2, 0,
        0, 2, 0, 2, 2, 0, 2, 2, 0, 2, 2, 0, 0, 2, 0, 0])

</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>建立 BERT 用的 mini-batch 時最需要注意的就是 zero padding 的存在了。你可以發現除了 <code>lable_ids</code> 以外，其他 3 個 tensors 的每個樣本的最後大都為 0，這是因為每個樣本的 tokens 序列基本上長度都會不同，需要補 padding。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/bert/from_raw_data_to_bert_compatible.jpg" style="mix-blend-mode: initial;"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>到此為止我們已經成功地將原始文本轉換成 BERT 相容的輸入格式了。這節是本篇文章最重要，也最需要花點時間咀嚼的內容。在有這些 tensors 的前提下，要在 BERT 之上訓練我們自己的下游任務完全是一塊蛋糕。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="3.-在-BERT-之上加入新-layer-成下游任務模型">3. 在 BERT 之上加入新 layer 成下游任務模型<a class="anchor-link" href="#3.-在-BERT-之上加入新-layer-成下游任務模型">&para;</a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>我從<a href="http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html">李宏毅教授講解 BERT 的投影片</a>中擷取出<a href="https://arxiv.org/pdf/1810.04805.pdf">原論文</a>提到的 4 種 fine-tuning BERT 情境，並整合了一些有用資訊：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/bert_fine_tuning_tasks.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        在 4 種 NLP 任務上 fine-tuning BERT 的例子
                        （<a href="https://www.youtube.com/watch?v=UYPa347-DdE" target="_blank">圖片來源</a>）
                        
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>資訊量不少，但我假設你在<a href="https://youtu.be/UYPa347-DdE">前面教授的 BERT 影片</a>或是其他地方已經看過類似的圖。</p>
<p>首先，我們前面一直提到的 fine-tuning BERT 指的是在<strong>預訓練完</strong>的 BERT 之上加入新的線性分類器（Linear Classifier），並利用下游任務的目標函式<strong>從頭</strong>訓練分類器並<strong>微調</strong> BERT 的參數。這樣做的目的是讓整個模型（BERT + Linear Classifier）能一起最大化當前下游任務的目標。</p>
<p>圖中紅色小字則是該任務類型常被拿來比較的資料集，比方說 <a href="https://www.nyu.edu/projects/bowman/multinli/">MNLI</a> 及 <a href="https://rajpurkar.github.io/SQuAD-explorer/explore/1.1/dev/">SQuAD v1.1</a>。</p>
<p>不過現在對我們來說最重要的是圖中的藍色字體。多虧了 <a href="https://pytorch.org/hub/huggingface_pytorch-pretrained-bert_bert/">HuggingFace 團隊</a>，要用 PyTorch fine-tuing BERT 是件非常容易的事情。每個藍色字體都對應到一個可以處理下游任務的<strong>模型</strong>，而這邊說的模型指的是<strong>已訓練的 BERT + Linear Classifier</strong>。</p>
<p>按圖索驥，因為假新聞分類是一個成對句子分類任務，自然就對應到上圖的左下角。<code>FINETUNE_TASK</code> 則為 bertForSequenceClassification：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="c1"># 載入一個可以做中文多分類任務的模型，n_class = 3</span>
<span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">BertForSequenceClassification</span>

<span class="n">PRETRAINED_MODEL_NAME</span> <span class="o">=</span> <span class="s2">"bert-base-chinese"</span>
<span class="n">NUM_LABELS</span> <span class="o">=</span> <span class="mi">3</span>

<span class="n">model</span> <span class="o">=</span> <span class="n">BertForSequenceClassification</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
    <span class="n">PRETRAINED_MODEL_NAME</span><span class="p">,</span> <span class="n">num_labels</span><span class="o">=</span><span class="n">NUM_LABELS</span><span class="p">)</span>

<span class="n">clear_output</span><span class="p">()</span>

<span class="c1"># high-level 顯示此模型裡的 modules</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">"""</span>
<span class="s2">name            module</span>
<span class="s2">----------------------"""</span><span class="p">)</span>
<span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">module</span> <span class="ow">in</span> <span class="n">model</span><span class="o">.</span><span class="n">named_children</span><span class="p">():</span>
    <span class="k">if</span> <span class="n">name</span> <span class="o">==</span> <span class="s2">"bert"</span><span class="p">:</span>
        <span class="k">for</span> <span class="n">n</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">module</span><span class="o">.</span><span class="n">named_children</span><span class="p">():</span>
            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">"</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">:</span><span class="si">{</span><span class="n">n</span><span class="si">}</span><span class="s2">"</span><span class="p">)</span>
    <span class="k">else</span><span class="p">:</span>
        <span class="nb">print</span><span class="p">(</span><span class="s2">"</span><span class="si">{:15}</span><span class="s2"> </span><span class="si">{}</span><span class="s2">"</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">module</span><span class="p">))</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>
name            module
----------------------
bert:embeddings
bert:encoder
bert:pooler
dropout         Dropout(p=0.1, inplace=False)
classifier      Linear(in_features=768, out_features=3, bias=True)
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>沒錯，一行程式碼就初始化了一個可以用 BERT 做文本多分類的模型 <code>model</code>。我也列出了 <code>model</code> 裡頭最 high level 的模組，資料流則從上到下，通過：</p>
<ul>
<li>BERT 處理各種 <code>embeddings</code> 的模組</li>
<li>在<a href="https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html">神經機器翻譯</a>就已經看過的 Transformer Encoder</li>
<li>一個 pool <code>[CLS]</code> token 在所有層的 repr. 的 <a href="https://github.com/huggingface/pytorch-pretrained-BERT/blob/a6f2511811f08c24184f8162f226f252cb6ceaa4/pytorch_pretrained_bert/modeling.py#L494">BertPooler</a></li>
<li>Dropout 層</li>
<li>回傳 3 個類別 logits 的線性分類器 <code>classifier</code></li>
</ul>
<p>而 <code>classifer</code> 就只是將從 BERT 那邊拿到的 <code>[CLS]</code> token 的 repr. 做一個線性轉換而已，非常簡單。我也將我們實際使用的分類模型 <code>BertForSequenceClassification</code> 實作簡化一下供你參考：</p>
<div class="highlight"><pre><span></span><span class="k">class</span> <span class="nc">BertForSequenceClassification</span><span class="p">(</span><span class="n">BertPreTrainedModel</span><span class="p">):</span>
    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">,</span> <span class="n">num_labels</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="o">...</span><span class="p">):</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">BertForSequenceClassification</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">num_labels</span> <span class="o">=</span> <span class="n">num_labels</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">bert</span> <span class="o">=</span> <span class="n">BertModel</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="o">...</span><span class="p">)</span>  <span class="c1"># 載入預訓練 BERT</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_dropout_prob</span><span class="p">)</span>
        <span class="c1"># 簡單 linear 層</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span> <span class="n">num_labels</span><span class="p">)</span>
          <span class="o">...</span>

    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">token_type_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">labels</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">...</span><span class="p">):</span>
        <span class="c1"># BERT 輸入就是 tokens, segments, masks</span>
        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">bert</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">token_type_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="o">...</span><span class="p">)</span>
        <span class="o">...</span>
        <span class="n">pooled_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">pooled_output</span><span class="p">)</span>
        <span class="c1"># 線性分類器將 dropout 後的 BERT repr. 轉成類別 logits</span>
        <span class="n">logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">pooled_output</span><span class="p">)</span>

        <span class="c1"># 輸入有 labels 的話直接計算 Cross Entropy 回傳，方便！</span>
        <span class="k">if</span> <span class="n">labels</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
            <span class="n">loss_fct</span> <span class="o">=</span> <span class="n">CrossEntropyLoss</span><span class="p">()</span>
            <span class="n">loss</span> <span class="o">=</span> <span class="n">loss_fct</span><span class="p">(</span><span class="n">logits</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_labels</span><span class="p">),</span> <span class="n">labels</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">))</span>
            <span class="k">return</span> <span class="n">loss</span>
        <span class="c1"># 有要求回傳注意矩陣的話回傳</span>
        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">output_attentions</span><span class="p">:</span>
            <span class="k">return</span> <span class="n">all_attentions</span><span class="p">,</span> <span class="n">logits</span>
        <span class="c1"># 回傳各類別的 logits</span>
        <span class="k">return</span> <span class="n">logits</span>
</pre></div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>這樣應該清楚多了吧！我們的分類模型 <code>model</code> 也就只是在 BERT 之上加入 dropout 以及簡單的 linear classifier，最後輸出用來預測類別的 logits。 這就是兩階段遷移學習強大的地方：你不用再自己依照不同 NLP 任務從零設計非常複雜的模型，只需要站在巨人肩膀上，然後再做一點點事情就好了。</p>
<p>你也可以看到整個分類模型 <code>model</code> 預設的隱狀態維度為 768。如果你想要更改 BERT 的超參數，可以透過給一個 <code>config</code> dict 來設定。以下則是分類模型 <code>model</code> 預設的參數設定：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="n">model</span><span class="o">.</span><span class="n">config</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_text output_subarea output_execute_result">
<pre>BertConfig {
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "directionality": "bidi",
  "do_sample": false,
  "eos_token_ids": 0,
  "finetuning_task": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "is_decoder": false,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1
  },
  "layer_norm_eps": 1e-12,
  "length_penalty": 1.0,
  "max_length": 20,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_beams": 1,
  "num_hidden_layers": 12,
  "num_labels": 3,
  "num_return_sequences": 1,
  "output_attentions": false,
  "output_hidden_states": false,
  "output_past": true,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "pruned_heads": {},
  "repetition_penalty": 1.0,
  "temperature": 1.0,
  "top_k": 50,
  "top_p": 1.0,
  "torchscript": false,
  "type_vocab_size": 2,
  "use_bfloat16": false,
  "vocab_size": 21128
}</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Dropout、LayerNorm、全連接層數以及 mutli-head attentions 的 <code>num_attention_heads</code> 等超參數我們也都已經在之前的 Transformer 文章看過了，這邊就不再贅述。</p>
<p>目前 <a href="https://pytorch.org/hub/huggingface_pytorch-pretrained-bert_bert/">PyTorch Hub</a> 上有 8 種模型以及一個 tokenizer 可供使用，依照用途可以分為：</p>
<ul>
<li>基本款：<ul>
<li>bertModel</li>
<li><strong>bertTokenizer</strong></li>
</ul>
</li>
<li>預訓練階段<ul>
<li><strong>bertForMaskedLM</strong></li>
<li>bertForNextSentencePrediction</li>
<li>bertForPreTraining</li>
</ul>
</li>
<li>Fine-tuning 階段<ul>
<li><strong>bertForSequenceClassification</strong></li>
<li>bertForTokenClassification</li>
<li>bertForQuestionAnswering</li>
<li>bertForMultipleChoice</li>
</ul>
</li>
</ul>
<p>粗體是本文用到的模型。如果你想要完全 DIY 自己的模型，可以載入純 <code>bertModel</code> 並參考上面看到的 <code>BertForSequenceClassification</code> 的實作。當然建議盡量不要重造輪子。如果只是想要了解其背後實作邏輯，可以參考 <a href="https://github.com/huggingface/pytorch-transformers">pytorch-transformers</a>。</p>
<p>有了 <code>model</code> 以及我們在前一節建立的 <code>trainloader</code>，讓我們寫一個簡單函式測試現在 <code>model</code> 在訓練集上的分類準確率：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="sd">"""</span>
<span class="sd">定義一個可以針對特定 DataLoader 取得模型預測結果以及分類準確度的函式</span>
<span class="sd">之後也可以用來生成上傳到 Kaggle 競賽的預測結果</span>

<span class="sd">2019/11/22 更新：在將 `tokens`、`segments_tensors` 等 tensors</span>
<span class="sd">丟入模型時，強力建議指定每個 tensor 對應的參數名稱，以避免 HuggingFace</span>
<span class="sd">更新 repo 程式碼並改變參數順序時影響到我們的結果。</span>
<span class="sd">"""</span>

<span class="k">def</span> <span class="nf">get_predictions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">dataloader</span><span class="p">,</span> <span class="n">compute_acc</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
    <span class="n">predictions</span> <span class="o">=</span> <span class="kc">None</span>
    <span class="n">correct</span> <span class="o">=</span> <span class="mi">0</span>
    <span class="n">total</span> <span class="o">=</span> <span class="mi">0</span>
      
    <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
        <span class="c1"># 遍巡整個資料集</span>
        <span class="k">for</span> <span class="n">data</span> <span class="ow">in</span> <span class="n">dataloader</span><span class="p">:</span>
            <span class="c1"># 將所有 tensors 移到 GPU 上</span>
            <span class="k">if</span> <span class="nb">next</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">())</span><span class="o">.</span><span class="n">is_cuda</span><span class="p">:</span>
                <span class="n">data</span> <span class="o">=</span> <span class="p">[</span><span class="n">t</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">"cuda:0"</span><span class="p">)</span> <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">data</span> <span class="k">if</span> <span class="n">t</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
            
            
            <span class="c1"># 別忘記前 3 個 tensors 分別為 tokens, segments 以及 masks</span>
            <span class="c1"># 且強烈建議在將這些 tensors 丟入 `model` 時指定對應的參數名稱</span>
            <span class="n">tokens_tensors</span><span class="p">,</span> <span class="n">segments_tensors</span><span class="p">,</span> <span class="n">masks_tensors</span> <span class="o">=</span> <span class="n">data</span><span class="p">[:</span><span class="mi">3</span><span class="p">]</span>
            <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">input_ids</span><span class="o">=</span><span class="n">tokens_tensors</span><span class="p">,</span> 
                            <span class="n">token_type_ids</span><span class="o">=</span><span class="n">segments_tensors</span><span class="p">,</span> 
                            <span class="n">attention_mask</span><span class="o">=</span><span class="n">masks_tensors</span><span class="p">)</span>
            
            <span class="n">logits</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
            <span class="n">_</span><span class="p">,</span> <span class="n">pred</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">logits</span><span class="o">.</span><span class="n">data</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
            
            <span class="c1"># 用來計算訓練集的分類準確率</span>
            <span class="k">if</span> <span class="n">compute_acc</span><span class="p">:</span>
                <span class="n">labels</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="mi">3</span><span class="p">]</span>
                <span class="n">total</span> <span class="o">+=</span> <span class="n">labels</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
                <span class="n">correct</span> <span class="o">+=</span> <span class="p">(</span><span class="n">pred</span> <span class="o">==</span> <span class="n">labels</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
                
            <span class="c1"># 將當前 batch 記錄下來</span>
            <span class="k">if</span> <span class="n">predictions</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
                <span class="n">predictions</span> <span class="o">=</span> <span class="n">pred</span>
            <span class="k">else</span><span class="p">:</span>
                <span class="n">predictions</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">((</span><span class="n">predictions</span><span class="p">,</span> <span class="n">pred</span><span class="p">))</span>
    
    <span class="k">if</span> <span class="n">compute_acc</span><span class="p">:</span>
        <span class="n">acc</span> <span class="o">=</span> <span class="n">correct</span> <span class="o">/</span> <span class="n">total</span>
        <span class="k">return</span> <span class="n">predictions</span><span class="p">,</span> <span class="n">acc</span>
    <span class="k">return</span> <span class="n">predictions</span>
    
<span class="c1"># 讓模型跑在 GPU 上並取得訓練集的分類準確率</span>
<span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">"cuda:0"</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">"cpu"</span><span class="p">)</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">"device:"</span><span class="p">,</span> <span class="n">device</span><span class="p">)</span>
<span class="n">model</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
<span class="n">_</span><span class="p">,</span> <span class="n">acc</span> <span class="o">=</span> <span class="n">get_predictions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">trainloader</span><span class="p">,</span> <span class="n">compute_acc</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">"classification acc:"</span><span class="p">,</span> <span class="n">acc</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>device: cuda:0
classification acc: 0.03387278885961611
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>毫不意外，模型裡新加的線性分類器才剛剛被初始化，整個分類模型的表現低於 68 %  的 baseline 是非常正常的。因為模型是隨機初始化的，你的執行結果可能跟我有點差距，但應該不會超過 68 %。</p>
<p>另外我們也可以算算整個分類模型以及裡頭的簡單分類器有多少參數：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="k">def</span> <span class="nf">get_learnable_params</span><span class="p">(</span><span class="n">module</span><span class="p">):</span>
    <span class="k">return</span> <span class="p">[</span><span class="n">p</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">module</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span> <span class="k">if</span> <span class="n">p</span><span class="o">.</span><span class="n">requires_grad</span><span class="p">]</span>
     
<span class="n">model_params</span> <span class="o">=</span> <span class="n">get_learnable_params</span><span class="p">(</span><span class="n">model</span><span class="p">)</span>
<span class="n">clf_params</span> <span class="o">=</span> <span class="n">get_learnable_params</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">classifier</span><span class="p">)</span>

<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">"""</span>
<span class="s2">整個分類模型的參數量：</span><span class="si">{</span><span class="nb">sum</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">numel</span><span class="p">()</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">p</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">model_params</span><span class="p">)</span><span class="si">}</span>
<span class="s2">線性分類器的參數量：</span><span class="si">{</span><span class="nb">sum</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">numel</span><span class="p">()</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">p</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">clf_params</span><span class="p">)</span><span class="si">}</span>
<span class="s2">"""</span><span class="p">)</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>
整個分類模型的參數量：102269955
線性分類器的參數量：2307

</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>新增的 classifier 的參數量在 BERT 面前可說是滄海一粟。而因為分類模型大多數的參數都是從已訓練的 BERT 來的，實際上我們需要從頭訓練的參數量非常之少，這也是遷移學習的好處。</p>
<p>當然，一次 forward 所需的時間也不少就是了。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="4.-訓練該下游任務模型">4. 訓練該下游任務模型<a class="anchor-link" href="#4.-訓練該下游任務模型">&para;</a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>接下來沒有什麼新玩意了，除了需要記得我們前面定義的 batch 數據格式以外，訓練分類模型 <code>model</code> 就跟一般你使用 PyTorch 訓練模型做的事情相同。</p>
<p>為了避免失焦，訓練程式碼我只保留核心部分：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="o">%%time</span>

<span class="c1"># 訓練模式</span>
<span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">()</span>

<span class="c1"># 使用 Adam Optim 更新整個分類模型的參數</span>
<span class="n">optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">lr</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">)</span>


<span class="n">EPOCHS</span> <span class="o">=</span> <span class="mi">6</span>  <span class="c1"># 幸運數字</span>
<span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">EPOCHS</span><span class="p">):</span>
    
    <span class="n">running_loss</span> <span class="o">=</span> <span class="mf">0.0</span>
    <span class="k">for</span> <span class="n">data</span> <span class="ow">in</span> <span class="n">trainloader</span><span class="p">:</span>
        
        <span class="n">tokens_tensors</span><span class="p">,</span> <span class="n">segments_tensors</span><span class="p">,</span> \
        <span class="n">masks_tensors</span><span class="p">,</span> <span class="n">labels</span> <span class="o">=</span> <span class="p">[</span><span class="n">t</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span> <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">data</span><span class="p">]</span>

        <span class="c1"># 將參數梯度歸零</span>
        <span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
        
        <span class="c1"># forward pass</span>
        <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">input_ids</span><span class="o">=</span><span class="n">tokens_tensors</span><span class="p">,</span> 
                        <span class="n">token_type_ids</span><span class="o">=</span><span class="n">segments_tensors</span><span class="p">,</span> 
                        <span class="n">attention_mask</span><span class="o">=</span><span class="n">masks_tensors</span><span class="p">,</span> 
                        <span class="n">labels</span><span class="o">=</span><span class="n">labels</span><span class="p">)</span>

        <span class="n">loss</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
        <span class="c1"># backward</span>
        <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
        <span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>


        <span class="c1"># 紀錄當前 batch loss</span>
        <span class="n">running_loss</span> <span class="o">+=</span> <span class="n">loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
        
    <span class="c1"># 計算分類準確率</span>
    <span class="n">_</span><span class="p">,</span> <span class="n">acc</span> <span class="o">=</span> <span class="n">get_predictions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">trainloader</span><span class="p">,</span> <span class="n">compute_acc</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>

    <span class="nb">print</span><span class="p">(</span><span class="s1">'[epoch </span><span class="si">%d</span><span class="s1">] loss: </span><span class="si">%.3f</span><span class="s1">, acc: </span><span class="si">%.3f</span><span class="s1">'</span> <span class="o">%</span>
          <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">,</span> <span class="n">running_loss</span><span class="p">,</span> <span class="n">acc</span><span class="p">))</span>
    
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>[epoch 1] loss: 32.120, acc: 0.803
[epoch 2] loss: 19.275, acc: 0.845
[epoch 3] loss: 14.135, acc: 0.903
[epoch 4] loss: 10.738, acc: 0.868
[epoch 5] loss: 8.326, acc: 0.905
[epoch 6] loss: 8.947, acc: 0.930
CPU times: user 1min 41s, sys: 46 s, total: 2min 27s
Wall time: 2min 27s
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>哇嗚！我們成功地 Fine-tune BERT 了！</p>
<p>儘管擁有 1 億參數的分類模型十分巨大，多虧了小訓練集的助攻（？），幾個 epochs 的訓練過程大概在幾分鐘內就結束了。從準確率看得出我們的分類模型在非常小量的訓練集的表現已經十分不錯，接著讓我們看看這個模型在真實世界，也就是 Kaggle 競賽上的測試集能得到怎麼樣的成績。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="5.-對新樣本做推論">5. 對新樣本做推論<a class="anchor-link" href="#5.-對新樣本做推論">&para;</a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>這邊我們要做的事情很單純，就只是用訓練過後的分類模型 <code>model</code> 為測試集裡的每個樣本產生預測分類。執行完以下程式碼，我們就能得到一個能直接繳交到 Kaggle 競賽的 csv 檔案：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="o">%%time</span>
<span class="c1"># 建立測試集。這邊我們可以用跟訓練時不同的 batch_size，看你 GPU 多大</span>
<span class="n">testset</span> <span class="o">=</span> <span class="n">FakeNewsDataset</span><span class="p">(</span><span class="s2">"test"</span><span class="p">,</span> <span class="n">tokenizer</span><span class="o">=</span><span class="n">tokenizer</span><span class="p">)</span>
<span class="n">testloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">testset</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="mi">256</span><span class="p">,</span> 
                        <span class="n">collate_fn</span><span class="o">=</span><span class="n">create_mini_batch</span><span class="p">)</span>

<span class="c1"># 用分類模型預測測試集</span>
<span class="n">predictions</span> <span class="o">=</span> <span class="n">get_predictions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">testloader</span><span class="p">)</span>

<span class="c1"># 用來將預測的 label id 轉回 label 文字</span>
<span class="n">index_map</span> <span class="o">=</span> <span class="p">{</span><span class="n">v</span><span class="p">:</span> <span class="n">k</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">testset</span><span class="o">.</span><span class="n">label_map</span><span class="o">.</span><span class="n">items</span><span class="p">()}</span>

<span class="c1"># 生成 Kaggle 繳交檔案</span>
<span class="n">df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s2">"Category"</span><span class="p">:</span> <span class="n">predictions</span><span class="o">.</span><span class="n">tolist</span><span class="p">()})</span>
<span class="n">df</span><span class="p">[</span><span class="s1">'Category'</span><span class="p">]</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">Category</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">index_map</span><span class="p">[</span><span class="n">x</span><span class="p">])</span>
<span class="n">df_pred</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">concat</span><span class="p">([</span><span class="n">testset</span><span class="o">.</span><span class="n">df</span><span class="o">.</span><span class="n">loc</span><span class="p">[:,</span> <span class="p">[</span><span class="s2">"Id"</span><span class="p">]],</span> 
                          <span class="n">df</span><span class="o">.</span><span class="n">loc</span><span class="p">[:,</span> <span class="s1">'Category'</span><span class="p">]],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
<span class="n">df_pred</span><span class="o">.</span><span class="n">to_csv</span><span class="p">(</span><span class="s1">'bert_1_prec_training_samples.csv'</span><span class="p">,</span> <span class="n">index</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
<span class="n">df_pred</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>CPU times: user 2min 11s, sys: 49.5 s, total: 3min
Wall time: 3min 1s
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/bert/kaggle_csv.jpg" style="mix-blend-mode: initial;"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="inner_cell">
<div class="input_area">
<div class="highlight hl-ipython3"><pre><span></span><span class="o">!</span>ls<span class="w"> </span>bert*.csv
</pre></div>
</div>
</div>
</div>
<div class="output_wrapper">
<div class="output">
<div class="output_area">
<div class="output_subarea output_stream output_stdout output_text">
<pre>bert_1_prec_training_samples.csv
</pre>
</div>
</div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>我們前面就說過測試集是訓練集的 30 倍，因此光是做推論就得花不少時間。廢話不多說，讓我將生成的預測結果上傳到 Kaggle 網站，看看會得到怎麼樣的結果：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/kaggle_result.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        在不到 1 % 的數據 Fine-tuing BERT 可以達到 80 % 測試準確率
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>測試集是訓練集的 30 倍大，overfitting 完全是可預期的。不過跟我們一開始多數決的 68 % baseline 相比，以 BERT fine tune 的分類模型在測試集達到 80 %，整整上升了 12 %。雖然這篇文章的重點一直都不在最大化這個假新聞分類任務的準確率，還是別忘了我們只用了不到原來競賽 1 % 的數據以及不到 5 分鐘的時間就達到這樣的結果。</p>
<p>讓我們忘了準確率，看看 BERT 本身在 fine tuning 之前與之後的差異。以下程式碼列出模型成功預測 <code>disagreed</code> 類別的一些例子：</p>
<div class="highlight"><pre><span></span><span class="n">predictions</span> <span class="o">=</span> <span class="n">get_predictions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">trainloader</span><span class="p">)</span>
<span class="n">df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s2">"predicted"</span><span class="p">:</span> <span class="n">predictions</span><span class="o">.</span><span class="n">tolist</span><span class="p">()})</span>
<span class="n">df</span><span class="p">[</span><span class="s1">'predicted'</span><span class="p">]</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">predicted</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">index_map</span><span class="p">[</span><span class="n">x</span><span class="p">])</span>
<span class="n">df1</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">concat</span><span class="p">([</span><span class="n">trainset</span><span class="o">.</span><span class="n">df</span><span class="p">,</span> <span class="n">df</span><span class="o">.</span><span class="n">loc</span><span class="p">[:,</span> <span class="s1">'predicted'</span><span class="p">]],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
<span class="n">disagreed_tp</span> <span class="o">=</span> <span class="p">((</span><span class="n">df1</span><span class="o">.</span><span class="n">label</span> <span class="o">==</span> <span class="s1">'disagreed'</span><span class="p">)</span> <span class="o">&amp;</span> \
                <span class="p">(</span><span class="n">df1</span><span class="o">.</span><span class="n">label</span> <span class="o">==</span> <span class="n">df1</span><span class="o">.</span><span class="n">predicted</span><span class="p">)</span> <span class="o">&amp;</span> \
                <span class="p">(</span><span class="n">df1</span><span class="o">.</span><span class="n">text_a</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="kc">True</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">10</span> <span class="k">else</span> <span class="kc">False</span><span class="p">)))</span>
<span class="n">df1</span><span class="p">[</span><span class="n">disagreed_tp</span><span class="p">]</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
</pre></div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/bert/disagreed_df.jpg" style="mix-blend-mode: initial;"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>其實用肉眼看看這些例子，以你對自然語言的理解應該能猜出要能正確判斷 <code>text_b</code> 是反對 <code>text_a</code>，首先要先關注「謠」、「假」等代表反對意義的詞彙，接著再看看兩個句子間有沒有含義相反的詞彙。</p>
<p>讓我們從中隨意選取一個例子，看看 fine tuned 後的 BERT 能不能關注到該關注的位置。再次出動 <a href="https://github.com/jessevig/bertviz">BertViz</a> 來視覺化 BERT 的注意權重：</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<div class="highlight"><pre><span></span><span class="c1"># 觀察訓練過後的 model 在處理假新聞分類任務時關注的位置</span>
<span class="c1"># 去掉 `state_dict` 即可觀看原始 BERT 結果</span>
<span class="n">model_version</span> <span class="o">=</span> <span class="s1">'bert-base-chinese'</span>
<span class="n">finetuned_model</span>  <span class="o">=</span> <span class="n">BertModel</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_version</span><span class="p">,</span> 
                                  <span class="n">output_attentions</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">state_dict</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">())</span>

<span class="c1"># 兩個句子</span>
<span class="n">sentence_a</span> <span class="o">=</span> <span class="s2">"烟王褚时健去世"</span>
<span class="n">sentence_b</span> <span class="o">=</span> <span class="s2">"辟谣：一代烟王褚时健安好！"</span>

<span class="c1"># 得到 tokens 後丟入 BERT 取得 attention</span>
<span class="n">inputs</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_plus</span><span class="p">(</span><span class="n">sentence_a</span><span class="p">,</span> <span class="n">sentence_b</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s1">'pt'</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
<span class="n">token_type_ids</span> <span class="o">=</span> <span class="n">inputs</span><span class="p">[</span><span class="s1">'token_type_ids'</span><span class="p">]</span>
<span class="n">input_ids</span> <span class="o">=</span> <span class="n">inputs</span><span class="p">[</span><span class="s1">'input_ids'</span><span class="p">]</span>
<span class="n">attention</span> <span class="o">=</span> <span class="n">finetuned_model</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">token_type_ids</span><span class="o">=</span><span class="n">token_type_ids</span><span class="p">)[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
<span class="n">input_id_list</span> <span class="o">=</span> <span class="n">input_ids</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="c1"># Batch index 0</span>
<span class="n">tokens</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">convert_ids_to_tokens</span><span class="p">(</span><span class="n">input_id_list</span><span class="p">)</span>
<span class="n">call_html</span><span class="p">()</span>
<span class="n">head_view</span><span class="p">(</span><span class="n">attention</span><span class="p">,</span> <span class="n">tokens</span><span class="p">)</span>

<span class="c1"># 這段程式碼會顯示下圖中右邊的結果</span>
</pre></div>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<img src="https://leemeng.tw/images/bert/cls_repr_change_after_fine_tuning.jpg" style="mix-blend-mode: initial;"/>
<br/>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>我們說過在 BERT 裡頭，第一個 <code>[CLS]</code> 的 repr. 代表著整個輸入序列的 repr.。</p>
<p>左邊是一般預訓練完的 BERT。如果你還記得 BERT 的其中一個預訓練任務 NSP 的話，就會了解這時的 <code>[CLS]</code> 所包含的資訊大多是要用來預測第二句本來是否接在第一句後面。以第 8 層 Encoder block 而言，你會發現大多數的 heads 在更新 <code>[CLS]</code> 時只關注兩句間的 <code>[SEP]</code>。</p>
<p>有趣的是在看過一些假新聞分類數據以後（右圖），這層的一些 heads 在更新 <code>[CLS]</code> 的 repr. 時會開始關注跟下游任務目標相關的特定詞彙：</p>
<ul>
<li>闢謠</li>
<li>去世</li>
<li>安好</li>
</ul>
<p>在 fine tune 一陣子之後， 這層 Encoder block 學會關注兩句之間「衝突」的位置，並將這些資訊更新到 <code>[CLS]</code> 裡頭。有了這些資訊，之後的 Linear Classifier 可以將其轉換成更好的分類預測。考慮到我們只給 BERT 看不到 1 % 的數據，這樣的結果不差。如果有時間 fine tune 整個訓練集，我們能得到更好的成果。</p>
<p>好啦，到此為止你應該已經能直觀地理解 BERT 並開始 fine tuning 自己的下游任務了。如果你要做的是如 <a href="https://github.com/huggingface/pytorch-pretrained-BERT#squad">SQuAD 問答</a>等常見的任務，甚至可以用 <a href="https://github.com/huggingface/transformers">transformers</a> 準備好的 Python 腳本一鍵完成訓練與推論：</p>
<div class="highlight"><pre><span></span><span class="c1"># 腳本模式的好處是可以透過改變參數快速進行各種實驗。</span>
<span class="c1"># 壞處是黑盒子效應，不過對閱讀完本文的你應該不是個問題。</span>
<span class="c1"># 選擇適合自己的方式 fine-tuning BERT 吧！</span>
<span class="nb">export</span><span class="w"> </span><span class="nv">SQUAD_DIR</span><span class="o">=</span>/path/to/SQUAD

python<span class="w"> </span>run_squad.py<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--bert_model<span class="w"> </span>bert-base-uncased<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--do_train<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--do_predict<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--do_lower_case<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--train_file<span class="w"> </span><span class="nv">$SQUAD_DIR</span>/train-v1.1.json<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--predict_file<span class="w"> </span><span class="nv">$SQUAD_DIR</span>/dev-v1.1.json<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--train_batch_size<span class="w"> </span><span class="m">12</span><span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--learning_rate<span class="w"> </span>3e-5<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--num_train_epochs<span class="w"> </span><span class="m">2</span>.0<span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--max_seq_length<span class="w"> </span><span class="m">384</span><span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--doc_stride<span class="w"> </span><span class="m">128</span><span class="w"> </span><span class="se">\</span>
<span class="w">  </span>--output_dir<span class="w"> </span>/tmp/debug_squad/
</pre></div>
<p>用腳本的好處是你不需要知道所有實作細節，只要調整自己感興趣的參數就好。我在<a href="http://localhost:8000/generate-anime-using-cartoongan-and-tensorflow2.html">用 CartoonGAN 與 TensorFlow 2 生成新海誠動畫</a>一文也採用同樣方式，提供讀者一鍵生成卡通圖片的 Python 腳本。</p>
<p>當然，你也可以先試著一步步執行本文列出的程式碼，複習並鞏固學到的東西。最後，讓我們做點簡單的總結。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h2 id="結語_1">結語<a class="anchor-link" href="#結語">&para;</a></h2>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>一路過來，你現在應該已經能夠：</p>
<ul>
<li>直觀理解 BERT 內部自注意力機制的物理意義</li>
<li>向其他人清楚解釋何謂 BERT 以及其運作的原理</li>
<li>了解 contextual word repr. 及兩階段遷移學習</li>
<li>將文本數據轉換成 BERT 相容的輸入格式</li>
<li>依據下游任務 fine tuning BERT 並進行推論</li>
</ul>
<p>恭喜！你現在已經具備能夠進一步探索最新 NLP 研究與應用的能力了。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<center>
<img src="https://leemeng.tw/images/bert/unilm.jpg" style="mix-blend-mode: initial;"/>
</center>
<center>
                        UniLM 用 3 種語言模型作為預訓練目標，可以 fine tune 自然語言生成任務，是值得期待的研究
                        （<a href="https://arxiv.org/abs/1905.03197" target="_blank">圖片來源</a>）
                        
                        <br/>
<br/>
</center>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>我還有不少東西想跟你分享，但因為時間有限，在這邊就簡單地條列出來：</p>
<ul>
<li>BERT 的 Encoder 架構很適合做<a href="http://web.stanford.edu/class/cs224u/">自然語言理解 NLU </a>任務，但如文章摘要等<a href="https://youtu.be/4uG1NMKNWCU">自然語言生成 NLG </a>的任務就不太 okay。<a href="https://github.com/nlpyang/BertSum">BertSum</a> 則是一篇利用 BERT 做萃取式摘要並在 <a href="https://paperswithcode.com/sota/document-summarization-on-cnn-daily-mail">CNN/Dailymail 取得 SOTA</a> 的研究，適合想要在 BERT 之上開發自己模型的人參考作法</li>
<li><a href="https://arxiv.org/abs/1905.03197">UniLM</a> 透過「玩弄」注意力遮罩使得其可以在預訓練階段同時訓練 3 種語言模型，讓 fine tune NLG 任務不再是夢想。如果你了解<a href="https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html">之前 Transformer 文章</a>裡說明的遮罩概念，幾秒鐘就能直觀理解上面的 UniLM 架構</li>
<li>最近新的 NLP 王者非 <a href="https://arxiv.org/abs/1906.08237">XLNet</a> 莫屬。其表現打敗 BERT 自然不需多言，但<a href="https://medium.com/syncedreview/the-staggering-cost-of-training-sota-ai-models-e329e80fa82">訓練該模型所需的花費</a>令人不禁思考這樣的大公司遊戲是否就是我們要的未來</li>
<li>有些人認為 BERT 不夠通用，因為 Fine-tuning 時還要依照不同下游任務加入新的 Linear Classifier。有些人提倡使用 Multitask Learning 想辦法弄出更通用的模型，而 <a href="https://decanlp.com/">decaNLP</a> 是一個知名例子。</li>
<li>PyTorch 的 BERT 雖然使用上十分直覺，如果沒有強大的 GPU 還是很難在實務上使用。你可以嘗試特徵擷取或是 freeze BERT。另外如果你是以個人身份進行研究，但又希望能最小化成本並加快模型訓練效率，我會推薦花點時間學會<a href="https://colab.sandbox.google.com/github/google-research/bert/blob/master/predicting_movie_reviews_with_bert_on_tf_hub.ipynb">在 Colab 上使用 TensorFlow Hub 及 TPU 訓練模型 </a></li>
</ul>
<p>其他的碎念留待下次吧。</p>
<p>當時在撰寫<a href="https://leemeng.tw/shortest-path-to-the-nlp-world-a-gentle-guide-of-natural-language-processing-and-deep-learning-for-everyone.html">進入 NLP 世界的最佳橋樑</a>一文時我希望能用點微薄之力搭起一座小橋，幫助更多人平順地進入 NLP 世界。作為該篇文章的延伸，這次我希望已經在 NLP 世界闖蕩的你能夠進一步掌握突破城牆的巨人之力，前往更遠的地方。</p>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<blockquote>
<p>
                        啊，我想這篇文章就是讓你變成智慧巨人的脊髓液了！我們牆外見。
                        <br/>
<br/>
</p>
</blockquote>
</div>
</div>
</div>
<script type="text/javascript">if (!document.getElementById('mathjaxscript_pelican_#%@#$@#')) {
    var mathjaxscript = document.createElement('script');
    mathjaxscript.id = 'mathjaxscript_pelican_#%@#$@#';
    mathjaxscript.type = 'text/javascript';
    mathjaxscript.src = '//cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML';
    mathjaxscript[(window.opera ? "innerHTML" : "text")] =
        "MathJax.Hub.Config({" +
        "    config: ['MMLorHTML.js']," +
        "    TeX: { extensions: ['AMSmath.js','AMSsymbols.js','noErrors.js','noUndefined.js'], equationNumbers: { autoNumber: 'AMS' } }," +
        "    jax: ['input/TeX','input/MathML','output/HTML-CSS']," +
        "    extensions: ['tex2jax.js','mml2jax.js','MathMenu.js','MathZoom.js']," +
        "    displayAlign: 'center'," +
        "    displayIndent: '0em'," +
        "    showMathMenu: true," +
        "    tex2jax: { " +
        "        inlineMath: [ ['$','$'] ], " +
        "        displayMath: [ ['$$','$$'] ]," +
        "        processEscapes: true," +
        "        preview: 'TeX'," +
        "    }, " +
        "    'HTML-CSS': { " +
        " linebreaks: { automatic: true, width: '95% container' }, " +
        "        styles: { '.MathJax_Display, .MathJax .mo, .MathJax .mi, .MathJax .mn': {color: 'black ! important'} }" +
        "    } " +
        "}); ";
    (document.body || document.getElementsByTagName('head')[0]).appendChild(mathjaxscript);
}
</script>


                <!-- Tags -->
                <p class="blog-content__tags">
                    <span>Post Tags</span>

                    <span class="blog-content__tag-list">
                        <a href="https://leemeng.tw/tag/zi-ran-yu-yan-chu-li.html" rel="tag">自然語言處理</a>
                        <a href="https://leemeng.tw/tag/nlp.html" rel="tag">NLP</a>
                        <a href="https://leemeng.tw/tag/pytorch.html" rel="tag">PyTorch</a>
                    </span>

                </p>


                <!-- end Tags -->


                <!-- Mail-list-subscribe -->
                <div id="article-inner-subscribe" class="blog-content__pagenav">
                    <div class="blog-content__nav">
                        <div class="blog-content__prev">
                            <a class="open-popup" rel="subscribe">
                                <span>Get Latest Arrivals</span>
                                訂閱最新文章
                            </a>
                        </div>
                        <div class="blog-content__next">
                            <p>
                                跟資料科學相關的最新文章直接送到家。</br>
                                只要加入訂閱名單，當新文章出爐時，</br>
                                你將能馬上收到通知 <i class="im im-newspaper-o" aria-hidden="true"></i>
                            </p>
                        </div>
                    </div>
                    <div class="blog-content__all">
                        <a class="open-popup btn btn--primary ">&nbsp;&nbsp;Subscribe&nbsp;&nbsp;&nbsp;</a>
                    </div>
                </div>
                <!-- end Mail-list-subscribe -->

                <!--Pagination-->
                <div id="article-inner-neighbor-pages" class="blog-content__pagenav">
                    <div class="blog-content__nav">
                        <div class="blog-content__prev">
                            <a href="https://leemeng.tw/practical-pandas-tutorial-for-aspiring-data-scientists.html" rel="prev">
                                <span>Previous Post</span>
                                資料科學家的 pandas 實戰手冊：掌握 40 個實用數據技巧
                            </a>
                        </div>
                        <div class="blog-content__next">
                            <a href="https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html" rel="next">
                                <span>Next Post</span>
                                淺談神經機器翻譯 & 用 Transformer 與 TensorFlow 2 英翻中
                            </a>
                        </div>
                    </div>

                    <div class="blog-content__all">
                        <a href="blog.html" class="btn btn--primary">
                            View All Post
                        </a>
                    </div>
                </div>
                <!-- end Pagination-->

            </div><!-- end blog-content__main -->


        </div>
        </div> <!-- end blog-content -->

    </article>

<div class="comments-wrap">
    <div id="comments" class="row">
        <div class="col-full">
            <div id="disqus_thread"></div>
        </div>
    </div>
</div>

<script type="text/javascript">
var disqus_shortname = 'leemengtaiwan';
var disqus_title = '進擊的 BERT：NLP 界的巨人之力與遷移學習';

(function() {
    var dsq = document.createElement('script'); dsq.type = 'text/javascript'; dsq.async = true;
    dsq.src = 'https://' + disqus_shortname + '.disqus.com/embed.js';
    (document.getElementsByTagName('head')[0] || document.getElementsByTagName('body')[0]).appendChild(dsq);
})();
</script>
<noscript>Please enable JavaScript to view the <a href="http://disqus.com/?ref_noscript">comments powered by Disqus.</a></noscript>


<!-- footer
================================================== -->
<footer style="background:#0a0809">
    <div class="row">
        <div class="col-full">

            <div class="footer-logo">
                <a class="footer-site-logo" href="#0"><img src="https://leemeng.tw/theme/images/logo.png" alt="Homepage"></a>
            </div>

            <ul class="footer-social">
<li><a href="https://github.com/leemengtaiwan" target="_blank">
    <i class="im im-github" aria-hidden="true"></i>
    <span>Github</span>
</a></li>
<li><a href="https://www.facebook.com/LeeMengTaiwan" target="_blank">
    <i class="im im-facebook" aria-hidden="true"></i>
    <span>Facebook</span>
</a></li>
<li><a href="https://www.instagram.com/leemengtaiwan/" target="_blank">
    <i class="im im-instagram" aria-hidden="true"></i>
    <span>Instagram</span>
</a></li>
<li><a href="https://www.linkedin.com/in/leemeng1990/" target="_blank">
    <i class="im im-linkedin" aria-hidden="true"></i>
    <span>LinkedIn</span>
</a></li>            </ul>
        </div>
    </div>
    <div class="row footer-bottom">
        <div class="col-twelve">
            <div class="go-top">
            <a class="smoothscroll" title="Back to Top" href="#top"><i class="im im-arrow-up" aria-hidden="true"></i></a>
            </div>
        </div>
    </div> <!-- end footer-bottom -->
</footer> <!-- end footer -->


        <!-- Javascript
    ================================================== -->
    <script src="https://leemeng.tw/theme/js/jquery-3.2.1.min.js"></script>
    <script src="https://leemeng.tw/theme/js/plugins.js"></script>
    <script src="https://leemeng.tw/theme/js/main_raw.js"></script>
    <script type='text/javascript' src='https://leemeng.tw/theme/js/scroll-detect.js'></script>

    <!--https://instant.page/-->
    <script src="//instant.page/1.0.0" type="module" integrity="sha384-6w2SekMzCkuMQ9sEbq0cLviD/yR2HfA/+ekmKiBnFlsoSvb/VmQFSi/umVShadQI"></script>


    <script type='text/javascript' src='https://leemeng.tw/theme/js/progress-bar.js'></script>
    <script type='text/javascript' src='https://leemeng.tw/theme/js/scroll-detect.js'></script>

    <!--show and hide left navigation by scrolling-->
    <script>
    $(document).scroll(function() {
        var y = $(this).scrollTop();
      if ( $(window).width() > 980 ) {
        if (y > 600) {
          $('#left-navigation').fadeIn(300);
        } else {
          $('#left-navigation').fadeOut(300);
        }
      }
    });
    </script>

<!--reference: https://gist.github.com/scottmagdalein/259d878ad46ed6f2cdce-->
<script type="text/javascript" src="//downloads.mailchimp.com/js/signup-forms/popup/embed.js" data-dojo-config="usePlainJson: true, isDebug: false">
</script>

<script type="text/javascript">
  function showMailingPopUp() {
    require(["mojo/signup-forms/Loader"], function(L) { L.start({"baseUrl":"mc.us18.list-manage.com","uuid":"151cb59f2de814c499c76b77a","lid":"dd1d78cc5e"})})
    document.cookie = "MCPopupClosed=; expires=Thu, 01 Jan 1970 00:00:00 UTC";
    document.cookie = "MCPopupSubscribed=; expires=Thu, 01 Jan 1970 00:00:00 UTC";
  };

  $(function() {
    $(".open-popup").on('click', function() {
      showMailingPopUp();
    });
  });
</script><!--https://darkmodejs.learn.uno/-->
<script src="https://cdn.jsdelivr.net/npm/darkmode-js@1.4.0/lib/darkmode-js.min.js"></script>
<script>
var options = {
  bottom: '32px', // default: '32px'
  right: 'unset', // default: '32px'
  left: '32px', // default: 'unset'
  time: '0.2s', // default: '0.3s'
  mixColor: '#fff', // default: '#fff'
  backgroundColor: '#fff',  // default: '#fff'
  buttonColorDark: '#100f2c',  // default: '#100f2c'
  buttonColorLight: '#fff', // default: '#fff'
  saveInCookies: true, // default: true,
  label: '🌓', // default: ''
  autoMatchOsTheme: true // default: true
}

const darkmode = new Darkmode(options);
darkmode.showWidget();
</script>
<!--reference: https://www.w3schools.com/howto/tryit.asp?filename=tryhow_js_overlay-->
<script>
function openTocNav() {
    document.getElementById("tocNav").style.width = "100%";
}

function closeTocNav() {
    document.getElementById("tocNav").style.width = "0%";
}

function toggleTocNav() {
    var current_width = document.getElementById("tocNav").style.width;
    if (current_width == "100%") {
        document.getElementById("tocNav").style.width = "0%";
    } else {
        document.getElementById("tocNav").style.width = "100%";
    }
}

function closeLeftNavImage(elementId) {
    document.getElementById(elementId).style.width = "0%";
}

function toggleLeftNavImage(elementId) {
    var current_width = document.getElementById(elementId).style.width;
    if (current_width == "100%") {
        document.getElementById(elementId).style.width = "0%";
    } else {
        document.getElementById(elementId).style.width = "100%";
    }
}

</script>


</body>
</html>