私は、40行しかないテーブルから900万行のデータを持つデータベース(2.5 GB)を扱っています。大きなテーブルに対してクエリを実行すると、さらに時間がかかります。より短い時間で結果が欲しい
90行のみのテーブルに対する小さなクエリ->
hive> select count(*) from cidade;
Time taken: 50.172 seconds
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.block.size</name>
<value>131072</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
</configuration>
これらの設定はハイブのパフォーマンスに影響しますか?
dfs.replication=3
dfs.block.size=131072
ハイブプロンプトから次のように設定できますか
hive>set dfs.replication=5
この値は特定のセッションにのみ残りますか?
または.xmlファイルで変更する方が良いですか?