Commit bb4ba14f by 202205008011

Update starter_code.ipynb

parent 4e89ec9a
......@@ -35,9 +35,9 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"在本次项目中,我们已经给定了训练数据和测试数据,它们分别是 ``train.positive.txt``, ``train.negative.txt``, ``test_combined.txt``. 请注意训练数据和测试数据的格式不一样,详情请见文件内容。 整个项目你需要完成以下步骤:\n",
"在本次项目中,已经给定了训练数据和测试数据,它们分别是 ``train.positive.txt``, ``train.negative.txt``, ``test_combined.txt``. 注意训练数据和测试数据的存在格式不一样,详情请见文件内容。 整个项目你需要完成以下步骤:\n",
"\n",
"数据的读取以及清洗: 从给定的.txt中读取内容,并做一些数据清洗,这里需要做几个工作: \n",
"数据的读取以及清洗: 从给定的.txt中读取内容,并做一些数据清洗,需要做几个工作: \n",
"- (1) 文本的读取,需要把字符串内容读进来。 \n",
"- (2)去掉无用的字符比如标点符号,多余的空格,换行符等 \n",
"- (3) 把文本转换成``TF-IDF``向量: 这部分直接可以利用sklearn提供的``TfidfVectorizer``类来做。\n",
......@@ -46,13 +46,7 @@
"项目中需要用到的数据:\n",
"- ``train.positive.txt``, ``train.negative.txt``, ``test_combined.txt``: 训练和测试数据\n",
"- ``stopwords.txt``: 停用词库\n",
"\n",
"\n",
"你需要完成的部分为标记为`TODO`的部分。 \n",
"\n",
"另外,提交作业时候的注意点:\n",
"> 1. 不要试图去创建另外一个.ipynb文件,所有的程序需要在`starter_code.ipynb`里面实现。很多的模块已经帮你写好,不要试图去修改已经定义好的函数以及名字。 当然,自己可以按需求来创建新的函数。但一定要按照给定的框架来写程序,不然判作业的时候会出现很多问题。 \n",
"> 2. 作业可以讨论,但请自己完成。让我们一起遵守贪心学院的`honor code`。"
"\n"
]
},
{
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment